Exchange导入,大量时间消耗在spark的shuffle read,优化思路

白玉汤儿 · 2024 年12 月 12 日 02:06

nebula 版本：3.0.0
Exchange版本：nebula-exchange_spark_2.4-3.0.0.jar
studio版本:v3.2.1
spark版本：2.3.0
部署方式：分布式
安装方式： RPM
是否上生产环境：Y
硬件信息
- 磁盘 hdd

导入7亿个顶点,sql语句就是select 字段 from 表,但是看spark任务的DAG,大量的时间都消耗在shuffle的read部分了.
目前我有几个想法,不知这些思路是否能优化shuffle?
1.减少spark-submit的excutor的数量
2.修改nebulaExchange.jar的源码,看看是否有repartiton算子,把该算子去掉,再打包使用
3.减少图库中存储的属性数量,非必须的属性去掉

nicole · 2024 年12 月 19 日 06:39

可以用更新的版本
把配置文件中每个node和edge 结构下的partition设置成-1，这样就不会做shuffle操作，会采用和源数据相同的分区进行数据写入。

白玉汤儿 · 2024 年12 月 19 日 06:56

我试试,您说的是nebula的新版本可以修改这个配置吗

nicole · 2024 年12 月 19 日 07:24

其实你用的版本也是支持partition设成-1 等小于0的数的，只要partition 小于0 就不会做repartition

system · 2024 年12 月 26 日 07:24

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。