space 分区固定了,spark partion 分区是调小,文件大小就变大,变少了是吧??
我要减少文件数量。
是的
好的我试试
我吧配置文件里的 partion 调小了,文件数量还是没有变少??我调的不对吗
vertex: thing_id
header: true
batch: 1024
partition: 128
你hdfs上之前的数据删掉了么, 没删掉的话文件不会变少。
如果清空了重新生成,得到的目录数 是nebula space part数,每个目录里面的文件数是spark的任务数。不知道你说的文件数据是不是这里的目录数。
这个我知道。我重跑之前删了
batch: 1024
partition: 128 改成 96 文件数变多了,确定是改小不是改大吗??
sst导入时你这里的partition数只会影响到数据源编码成sst文件key、value的并发数。 后面写sst文件之前会有两个shuffle操作,具体写文件时的任务数是 spark.sql.shuffle.partitions 决定的。
1 个赞
spark.sql.shuffle.partitions 把这个改小文件数量就小了是吧,但是速度会变慢吗??