nebula 6台集群,hadoop 30台集群,其他具体不多说。资源肯定是够用的。
现在入库100w条测试数据半天都入不完,就是insert插入操作。
–master yarn-client
–jars $SPARK_EXT_JARS
–num-executors 50
–executor-memory 4g
–driver-memory 10g
–executor-cores 4
–conf spark.default.parallelism=1000
–conf spark.storage.memoryFraction=0.7
–conf spark.shuffle.memoryFraction=0.3
spark提交任务参数如上。这会是什么问题呢?
nebula有连接数限制吗?
和partition的数量有关吗?
求大佬指导。
partition数量,拷贝数
storaged配置
机器配置
请都贴一下
拷贝数在哪里看?partition数量是不是新建space的数量还是spark中定义的数量? 如果space定义是3,spark中repartiton的时候是10,相互有影响吗?
storaged配置
–rocksdb_batch_size=4096
The default block cache size used in BlockBasedTable.
The unit is MB.
–rocksdb_block_cache=61440
The type of storage engine, rocksdb',
memory’, etc.
–engine_type=rocksdb
机器配置
贴下,特别是硬盘和网络
6台,64c 256G 7T的ssd,都是万兆卡
硬件看上去没问题,当前怀疑
- partition数量不够——create space语句贴一下
- partition分布不均匀 – show hosts
- 日志太多了 – show config
- 并没有把压力发给所有的graphd。-- 硬件使用情况截图贴一下,
- 100万数据应该秒到分钟级别就搞完了,–怀疑你的任务被杀掉了没有正常执行;
- https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/7.monitor/1.metrics-exposer/
- console试试写几条记录进去,看看你集群是不是能用的。
create space的时候,partition的只设置了3个。顺便问下,partition设置多少个的原则是什么或者计算规则是什么? 还是就是replica_factor计算规则是什么?
nebula partition和hbase region是类似的,逻辑上的分片来提供并发IO能力。
手册有解释如何详细设置参数,quickstart 里面也有说过。
ok