nebulaGraph2.5.1 hive 生成sst 文件现在有500个节点和边。怎样让每个sql任务并发执行加快速度

zhengshuai1030 · 2021 年12 月 7 日 02:51

space 分区固定了，spark partion 分区是调小，文件大小就变大，变少了是吧？？
我要减少文件数量。

nicole · 2021 年12 月 7 日 02:54

是的

zhengshuai1030 · 2021 年12 月 7 日 02:55

好的我试试

zhengshuai1030 · 2021 年12 月 7 日 03:10

我吧配置文件里的 partion 调小了，文件数量还是没有变少？？我调的不对吗
vertex: thing_id
header: true
batch: 1024
partition: 128

nicole · 2021 年12 月 7 日 03:13

你hdfs上之前的数据删掉了么，没删掉的话文件不会变少。
如果清空了重新生成，得到的目录数是nebula space part数，每个目录里面的文件数是spark的任务数。不知道你说的文件数据是不是这里的目录数。

zhengshuai1030 · 2021 年12 月 7 日 03:17

这个我知道。我重跑之前删了

zhengshuai1030 · 2021 年12 月 7 日 03:38

batch: 1024
partition: 128 改成 96 文件数变多了，确定是改小不是改大吗？？

nicole · 2021 年12 月 7 日 03:48

sst导入时你这里的partition数只会影响到数据源编码成sst文件key、value的并发数。后面写sst文件之前会有两个shuffle操作，具体写文件时的任务数是 spark.sql.shuffle.partitions 决定的。

zhengshuai1030 · 2021 年12 月 7 日 04:05

spark.sql.shuffle.partitions 把这个改小文件数量就小了是吧，但是速度会变慢吗？？