关于 nebula-importer 导入数据性能问题

Mr.Right · 2022 年6 月 17 日 10:25

充足的信息能提高解决问题的速度

提问之前，记得在【本论坛】和【文档】下搜索是否已有解决方案存在哟 ^^

为了更快地定位、解决问题，麻烦参考下面模版提问（不符合提问规范的问题，会被隐藏待补充相关信息之后再发布）

提问参考模版：

nebula 版本：（为节省回复者核对版本信息的时间，首次发帖的版本信息记得以截图形式展示）
部署方式：分布式
安装方式：tar.gz
是否为线上版本： N
硬件信息虚拟机
- 磁盘
- CPU 16核、内存信息可用256g
问题的具体描述

请问
我使用 nebula-importer 导入测试数据集（k6生成的数据集 2000万行），space 30个分区，副本为1
最终消耗 50s 全部导入，这么计算的话 qps：400000
可是使用k6测试插入点 batch-size 10000 并发 10，qps为 148000
插入边 batch-size 10000 并发 10，qps为 219000
无论插入点还是插入边的性能都达到不了 nebula-importer 的插入数据性能

问题：nebula-importer 的并发数是多少？什么导致了插入点还是插入边的性能都达到不了 nebula-importer 的插入数据性能？

Mr.Right · 2022 年6 月 17 日 10:39

刚又k6测试了一下
插入tag 并发30 持续时间180s，batch-size 10000

插入edge 并发30 持续时间180s，batch-size 10000

Mr.Right · 2022 年6 月 17 日 10:44

使用 nebula-bench 的 nebula-import 的模板文件 nebula-import-vid-int.yaml.j2 中 concurrency 属性是什么意思，可以理解为并发数吗

steam · 2022 年6 月 17 日 10:45

你试试调整 batchsize 呢，看你这个似乎 batchsize 恒定用了 10,000

steam · 2022 年6 月 17 日 10:46

使用 Nebula Importer - Nebula Graph Database 手册

你看下 importer 当中的一些参数项说明

Mr.Right · 2022 年6 月 17 日 13:33

为什么点的插入性能比边的插入性能要低。

我是采用了重复插入也就是原先就有这些点和边

Mr.Right · 2022 年6 月 17 日 14:06

nebula-importer 并发30 batch-size 10000
和k6 测试插入的参数一致

Mr.Right · 2022 年6 月 17 日 16:37

当我插入无属性的tag时写入性能才会比无属性边高

下面是无属性tag的插入性能（并发30，batch-size 10000）

HarrisChu · 2022 年6 月 21 日 01:37

得看你点的属性有多少，什么类型的，边的属性有多少，什么类型的。

影响插入的性能主要就是网络，磁盘，然后就是 value 值的编码。

system · 2022 年7 月 21 日 01:37

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。