go-importer 导入 csv 求助-关于默认值和速度

byfode · 2020 年8 月 24 日 09:48

默认值
schema 中已经设置了默认值的字段，如果数据中不存在该字段，在 csv 中应该怎么保存？
是必须要在 csv 中填充该默认值还是可以不处理；目前填充值为"", 拼接出来的语句缺少字段导致异常。

image1677×290 108 KB
关于导入速度
服务器为 4核16G * 3，图库配置为 meta * 3 ，storage * 3 , graph * 3。
当前对于点的 vid、边的 srcid 和 dstid 使用hash函数，其余字段使用原值。刚开始的导入速度约为 8w/s,随着导入数量的增长速度持续下降，达到3亿的时候导入速度只有1300/s

image1331×30 3.14 KB

按照这个速度的话是无法满足业务场景的，目前估计数据量点约为2亿，边5亿。

CPWstatic · 2020 年8 月 25 日 02:07

默认值需要自己填充，这个例子里，应该补充数字类型。
2.导入的时候需要关闭compaction，否则导入速度会很慢。“disable_auto_compactions”:“false”。你可以参考/etc目录下生产环境的配置文件。导入完成之后，手动触发compaction。submit job compaction

min.wu · 2020 年8 月 25 日 02:22

我猜测是建立了索引吧。
如果是第一次导入，不要先create index，否则会越写越慢。等数据写入完毕，再compaction+rebuild index 。
另外index比较依赖block cache的大小

byfode · 2020 年8 月 25 日 02:50

搜嘎我再去试试