Star

spark导入nebula性能问题

nebula 6台集群,hadoop 30台集群,其他具体不多说。资源肯定是够用的。
现在入库100w条测试数据半天都入不完,就是insert插入操作。
–master yarn-client
–jars $SPARK_EXT_JARS
–num-executors 50
–executor-memory 4g
–driver-memory 10g
–executor-cores 4
–conf spark.default.parallelism=1000
–conf spark.storage.memoryFraction=0.7
–conf spark.shuffle.memoryFraction=0.3
spark提交任务参数如上。这会是什么问题呢?
nebula有连接数限制吗?
和partition的数量有关吗?
求大佬指导。

partition数量,拷贝数
storaged配置
机器配置
请都贴一下

拷贝数在哪里看?partition数量是不是新建space的数量还是spark中定义的数量? 如果space定义是3,spark中repartiton的时候是10,相互有影响吗?

storaged配置
–rocksdb_batch_size=4096

The default block cache size used in BlockBasedTable.

The unit is MB.

–rocksdb_block_cache=61440

The type of storage engine, rocksdb', memory’, etc.

–engine_type=rocksdb

机器配置
贴下,特别是硬盘和网络

6台,64c 256G 7T的ssd,都是万兆卡

硬件看上去没问题,当前怀疑

  1. partition数量不够——create space语句贴一下
  2. partition分布不均匀 – show hosts
  3. 日志太多了 – show config
  4. 并没有把压力发给所有的graphd。-- 硬件使用情况截图贴一下,
  5. 100万数据应该秒到分钟级别就搞完了,–怀疑你的任务被杀掉了没有正常执行;
  6. https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/7.monitor/1.metrics-exposer/
  7. console试试写几条记录进去,看看你集群是不是能用的。

create space的时候,partition的只设置了3个。顺便问下,partition设置多少个的原则是什么或者计算规则是什么? 还是就是replica_factor计算规则是什么?

nebula partition和hbase region是类似的,逻辑上的分片来提供并发IO能力。
手册有解释如何详细设置参数,quickstart 里面也有说过。

ok

浙ICP备20010487号