Kv Store如何批量导入数据

zmh0531 · 2020 年4 月 18 日 08:53

Kv Store现在有 put get 两个接口，如果想导入大量kv数据，有没有好的方法， Spark Writer是否具有这种功能呢，谢谢

pandasheeps · 2020 年4 月 19 日 02:40

我们现在目前有两种批量导入方式：
1） spark write 可以批量导入
目前支持HDFS和Hive格式的数据，参考https://github.com/vesoft-inc/nebula-importer
2）对于sst文件，我们支持ingest命令。

cherry · 2020 年4 月 20 日 11:39

官方文档介绍spark writer 支持parquet/hive 格式的批量导入，是SparkClientGenerator (client/server)模式导入，不知道大量点边(千亿级别)的导入需要部署多少graphd 实例才能保证导入性能(导入时间在5~6小时之内)
另外，rc4的spark-sstfile-generator源码有SparkSstFileGenerator，是否现在支持工具生成sst，然后用ingest功能能更快地实现导入(像hbase的bulkload)

min.wu · 2020 年4 月 20 日 12:36

按照单机20-50万TPS估算，大概15台-30台机器。

在每台机器都部署graphd+storaged,另外随便找3个机器混布下meta就行了

zmh0531 · 2020 年6 月 2 日 13:53

我想问一下针对纯kv store场景，直接将每台机器所管理的Partition 对应的 sst文件直接 ingest 到nebula/data/storage/nebula/1/data 目录下面就可以是吗，meta 信息或者其他信息还需要更新吗？谢谢

pandasheeps · 2020 年6 月 3 日 01:51

对的，不过你这个路径，只能放space Id为1 的数据