每天批量数据导入,哪种方式不需要submit rebuild index job且不影响导入时的query性能

背景

目前每天批量导入数据至graph db,使用nebula exchange + sst的方式,但是发现存在以下问题

  • 需要submit rebuild index job才能用where clause搜索到新数据,rebuild index job非常耗时,及时单次数据量不大的情况下
  • rebuild index时非常影响query性能,P95从100ms增长到4s

问题

哪种方式数据导入速度比较快,并且不需要submit rebuild index job、不影响导入时的query性能。谢谢

是否可以不用 sst 的方式?

如果 sst 的话,建议导入和 rebuild 都在业务低峰期操作;
如果非 sst 的话,可以做在平时

这种方式和使用spark-connector 导入graph有什么区别和优劣?

本质上没有区别。
你可以认为 exchange 是在 spark connector 上做了一些产品层面的封装

1 个赞

数据导入时如何缓解对query性能的影响有什么好的建议吗?