NebulaGraph 技术社区

关于Spark导入性能的几个问题

bichen 2020 年11 月 11 日 07:05 1

https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/5.storage-service-administration/data-import/spark-writer/#_14

如上，对测试参数有几个问题想请教下

使用了3台机器，是否有做replica、有的话replica_factor是几；
1台物理机使用了几块SSD卡；
“每条数据3个字段”，字段平均大小是多少

nicole 2020 年11 月 12 日 08:48 2

你好，我是在三台虚拟机（32核、128G内存、无SSD）上进行过导入性能测试，导入1亿条数据用时<4分钟。

参数：

nebula 分布式部署，3个graphd服务，3个storaged服务。
space未做replica，分区数为100。
每条数据三个字段，字1亿条数据大小为5G
每个batch 设置2000条记录

1 个赞

bichen 2020 年11 月 20 日 07:03 4

好的，使用的是wiki中的这张表吧，2个int字段1个string字段

链接：https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/5.storage-service-administration/data-import/spark-writer/#_10

nicole 2020 年11 月 20 日 07:49 5

对的

bichen 2020 年11 月 20 日 08:14 6

好嘞，谢谢