nebulaGraph2.5.1 hive 生成sst 文件现在有500个节点和边。怎样让每个sql任务并发执行加快速度

space 分区固定了,spark partion 分区是调小,文件大小就变大,变少了是吧??
我要减少文件数量。

是的

好的我试试

我吧配置文件里的 partion 调小了,文件数量还是没有变少??我调的不对吗
vertex: thing_id
header: true
batch: 1024
partition: 128

你hdfs上之前的数据删掉了么, 没删掉的话文件不会变少。
如果清空了重新生成,得到的目录数 是nebula space part数,每个目录里面的文件数是spark的任务数。不知道你说的文件数据是不是这里的目录数。

这个我知道。我重跑之前删了

batch: 1024
partition: 128 改成 96 文件数变多了,确定是改小不是改大吗??

sst导入时你这里的partition数只会影响到数据源编码成sst文件key、value的并发数。 后面写sst文件之前会有两个shuffle操作,具体写文件时的任务数是 spark.sql.shuffle.partitions 决定的。

1 个赞

spark.sql.shuffle.partitions 把这个改小文件数量就小了是吧,但是速度会变慢吗??