如何处理大规模数据录入过程中的同一属性具有多个值的保存问题？

yeahvip · 2023 年2 月 9 日 02:31

那咱们这里有什么建议的方案吗？因为我们基于nebula主要想做数据融合，而不同来源的数据分多批次入库，且质量参差不齐，针对这种数据的融合咱们nebula有什么建议吗？

spw · 2023 年2 月 9 日 03:51

建议还是对数据进行简单的建模，并用一个预处理（清洗）的过程，对齐到这些建模。

yeahvip · 2023 年2 月 13 日 07:11

比如在美团应用场景中同一个单位的名字可能有多个，那么在你们给他们提供的咨询中他们如何记录这种名称，比如中科院的名称可能记为中科院，中国科学院，科学院，在入库前其名称无法列举无法排除，在美团这种图谱中同一商家涉及大量名称的情况该如何存储？因为大量饭店、公司等都存在多个名称，且为查询准确需都打包入库

xtcyclist · 2023 年2 月 13 日 08:03

你说的这个问题是一个数据清洗问题，是一个业务层的问题，不是一个数据库的问题。理论上的解法就是在数据工作流中加一步数据清洗，再将数据写入数据库。信息上的冗余一定要在某一步被处理，否则它永远存在，最终会体现为存储和计算上的额外开销或者结果上的错误。

如果一定加不了数据清洗，那数据库其实是爱莫能助的（一定会有额外的存储和计算开销），无论是否支持用 LIST 来存储一个字段。

数据库可以支持动态添加 tag 或者属性来存储冗余的数据，可以支持 list（虽然 NebulaGraph 还不支持），查询语句本身也可以多写一些过滤条件来处理。但这一定是有额外开销的，这部分不可避免，除非数据本身被清理过。

yeahvip · 2023 年2 月 14 日 01:34

请问类似于我们种多批次数据导入情况，面对同一属性具有多值情况有什么好的建议进行清洗嘛？因为在入多批次数据中无法同时得到所有批次数据，可能先对得到的数据进行清洗，但是后续录入数据是需要使用检索查询到该属性值进行匹配吗？

xtcyclist · 2023 年2 月 14 日 02:18

Google 一下数据清洗吧，有很多可以参考的。

……

system · 2023 年3 月 16 日 02:19

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。