spark导入nebula性能问题

woaiwah · 2020 年9 月 23 日 12:52

nebula 6台集群，hadoop 30台集群，其他具体不多说。资源肯定是够用的。
现在入库100w条测试数据半天都入不完，就是insert插入操作。
–master yarn-client
–jars $SPARK_EXT_JARS
–num-executors 50
–executor-memory 4g
–driver-memory 10g
–executor-cores 4
–conf spark.default.parallelism=1000
–conf spark.storage.memoryFraction=0.7
–conf spark.shuffle.memoryFraction=0.3
spark提交任务参数如上。这会是什么问题呢？
nebula有连接数限制吗？
和partition的数量有关吗？
求大佬指导。

min.wu · 2020 年9 月 24 日 01:40

partition数量，拷贝数
storaged配置
机器配置
请都贴一下

woaiwah · 2020 年9 月 24 日 03:04

拷贝数在哪里看？partition数量是不是新建space的数量还是spark中定义的数量？如果space定义是3，spark中repartiton的时候是10，相互有影响吗？

storaged配置
–rocksdb_batch_size=4096

The default block cache size used in BlockBasedTable.

The unit is MB.

–rocksdb_block_cache=61440

The type of storage engine, `rocksdb',` memory’, etc.

–engine_type=rocksdb

min.wu · 2020 年9 月 24 日 03:21

机器配置
贴下，特别是硬盘和网络

woaiwah · 2020 年9 月 24 日 03:25

6台，64c 256G 7T的ssd，都是万兆卡

min.wu · 2020 年9 月 24 日 06:48

硬件看上去没问题，当前怀疑

partition数量不够——create space语句贴一下
partition分布不均匀 – show hosts
日志太多了 – show config
并没有把压力发给所有的graphd。-- 硬件使用情况截图贴一下，
100万数据应该秒到分钟级别就搞完了，–怀疑你的任务被杀掉了没有正常执行;
https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/7.monitor/1.metrics-exposer/
console试试写几条记录进去，看看你集群是不是能用的。

woaiwah · 2020 年9 月 24 日 07:02

create space的时候，partition的只设置了3个。顺便问下，partition设置多少个的原则是什么或者计算规则是什么？还是就是replica_factor计算规则是什么？

min.wu · 2020 年9 月 24 日 07:51

nebula partition和hbase region是类似的，逻辑上的分片来提供并发IO能力。
手册有解释如何详细设置参数，quickstart 里面也有说过。

woaiwah · 2020 年9 月 24 日 08:12

ok

spark导入nebula性能问题

The default block cache size used in BlockBasedTable.

The unit is MB.

The type of storage engine, rocksdb', memory’, etc.

The type of storage engine, `rocksdb',` memory’, etc.