Star

Kv Store如何批量导入数据

Kv Store现在有 put get 两个接口,如果想导入大量kv数据,有没有好的方法, Spark Writer是否具有这种功能呢,谢谢

我们现在目前有两种批量导入方式:
1) spark write 可以批量导入
目前支持HDFS和Hive格式的数据,参考https://github.com/vesoft-inc/nebula-importer
2)对于sst文件,我们支持ingest命令。

官方文档介绍spark writer 支持parquet/hive 格式的批量导入,是SparkClientGenerator (client/server)模式导入,不知道大量点边(千亿级别)的导入需要部署多少graphd 实例才能保证导入性能(导入时间在5~6小时之内)
另外,rc4的spark-sstfile-generator源码有SparkSstFileGenerator,是否现在支持工具生成sst,然后用ingest功能能更快地实现导入(像hbase的bulkload)

按照单机20-50万TPS估算,大概15台-30台机器。

在每台机器都部署graphd+storaged,另外随便找3个机器混布下meta就行了

我想问一下针对纯kv store场景,直接将每台机器所管理的Partition 对应的 sst文件直接 ingest 到nebula/data/storage/nebula/1/data 目录下面就可以是吗,meta 信息或者其他信息还需要更新吗?谢谢

对的,不过你这个路径,只能放space Id为1 的数据

浙ICP备20010487号