如何处理大规模数据录入过程中的同一属性具有多个值的保存问题?

那咱们这里有什么建议的方案吗?因为我们基于nebula主要想做数据融合,而不同来源的数据分多批次入库,且质量参差不齐,针对这种数据的融合咱们nebula有什么建议吗?

建议还是对数据进行简单的建模,并用一个预处理(清洗)的过程,对齐到这些建模。

2 个赞

比如在美团应用场景中同一个单位的名字可能有多个,那么在你们给他们提供的咨询中他们如何记录这种名称 ,比如中科院的名称可能记为中科院,中国科学院,科学院,在入库前其名称无法列举无法排除,在美团这种图谱中同一商家涉及大量名称的情况该如何存储?因为大量饭店、公司等都存在多个名称,且为查询准确需都打包入库

你说的这个问题是一个数据清洗问题,是一个业务层的问题,不是一个数据库的问题。理论上的解法就是在数据工作流中加一步数据清洗,再将数据写入数据库。信息上的冗余一定要在某一步被处理,否则它永远存在,最终会体现为存储和计算上的额外开销或者结果上的错误。

如果一定加不了数据清洗,那数据库其实是爱莫能助的(一定会有额外的存储和计算开销),无论是否支持用 LIST 来存储一个字段。

数据库可以支持动态添加 tag 或者属性来存储冗余的数据,可以支持 list(虽然 NebulaGraph 还不支持),查询语句本身也可以多写一些过滤条件来处理。但这一定是有额外开销的,这部分不可避免,除非数据本身被清理过。

1 个赞

请问类似于我们种多批次数据导入情况,面对同一属性具有多值情况有什么好的建议进行清洗嘛?因为在入多批次数据中无法同时得到所有批次数据,可能先对得到的数据进行清洗,但是后续录入数据是需要使用检索查询到该属性值进行匹配吗?

Google 一下数据清洗吧,有很多可以参考的。

……

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。