关于Spark导入性能的几个问题


https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/5.storage-service-administration/data-import/spark-writer/#_14

如上,对测试参数有几个问题想请教下 :handshake:

  • 使用了3台机器,是否有做replica、有的话replica_factor是几;
  • 1台物理机使用了几块SSD卡;
  • “每条数据3个字段”,字段平均大小是多少 :pray:

你好,我是在三台虚拟机(32核、128G内存、无SSD)上进行过导入性能测试,导入1亿条数据用时<4分钟。

参数:

  1. nebula 分布式部署,3个graphd服务,3个storaged服务。
  2. space未做replica,分区数为100。
  3. 每条数据三个字段,字1亿条数据大小为5G
  4. 每个batch 设置2000条记录
1 个赞


好的,使用的是wiki中的这张表吧,2个int字段1个string字段 :handshake:

链接:https://docs.nebula-graph.com.cn/manual-CN/3.build-develop-and-administration/5.storage-service-administration/data-import/spark-writer/#_10

对的

好嘞,谢谢