nebula-importer导入配置文件参数应该怎么设置最优

nebula版本1.1.0,nebula-importer导入工具版本v1,服务器配置12核128G
当我使用默认参数concurrency为10,batchSize为128时,导入速度大约在10W条数据每秒
当我尝试修改这两个,将它们适当的增大时,初始导入速度能够提升好几倍,但随着导入的时间越来越长,最后的导入速度都趋近10W条数据每秒了
我想问一下这是为什么?要怎么修改导入配置文件的参数才能提升导入的速度

升级2.0 最新版吧

除了升级版本之外,调整导入参数能提升效率吗

1 个赞

2.0版本的nebula-importer导入速度有明显的提升吗

1 个赞

导入速度的影响因素主要有三方面:

  1. 前端 importer 并发度,也就是你现在调整的 batch 大小和 concurrency;
  2. 后端 nebula storage 的写入速度,磁盘还有 storage 的配置都会有影响;
  3. 数据的分布,如果数据倾斜,比如有稠密点也是会影响导入速率的;

所以从上面三点找是否到达机器的最大负载。在 importer 发压的时候,可以关注一下机器的磁盘写入速率 wps,如果达到硬件的极限值,importer 调整都没用的。

从你的描述看调整参数后数率会上升然后缓慢下降,那确认一下数据的分布是否有倾斜的情况?因为 storage 始终是 partition 的 leader 来写,当大量的数据发给了同一个 partition 的时候,是会影响整体的写入性能。

1 个赞