Exchange导入数据后出现数据缺失

Abel · 2022 年8 月 11 日 09:43

nebula 版本：3.0.0
部署方式：Spark伪分布式 / Nebula单机（按照手册的示例进行）
安装方式：RPM
是否为线上版本：N
硬件信息
- 磁盘SSD
- 4CPU 20core
- RAM 256G
问题的具体描述：按照手册的要求部署了Spark+Hadoop，然后将basketballplayer导入到我的Nebula中，结果其中的"serve"边共152个在Exchange导入之后只有146个，图一为nSQL语句文件在客户端的直接导入"serve"边共有152个，图二为CSV文件的Exchange导入"serve"边仅有146个（值得一提的是使用Hadoop和MySQL的导入结果也是如此）

(root@nebula) [basketballplayer]> show stats
+---------+------------+-------+
| Type    | Name       | Count |
+---------+------------+-------+
| "Tag"   | "player"   | 51    |
| "Tag"   | "team"     | 30    |
| "Edge"  | "follow"   | 81    |
| "Edge"  | "serve"    | 152   |
| "Space" | "vertices" | 81    |
| "Space" | "edges"    | 233   |
+---------+------------+-------+

(root@nebula) [basketball]> show stats
+---------+------------+-------+
| Type    | Name       | Count |
+---------+------------+-------+
| "Tag"   | "player"   | 51    |
| "Tag"   | "team"     | 30    |
| "Edge"  | "follow"   | 81    |
| "Edge"  | "serve"    | 146   |
| "Space" | "vertices" | 81    |
| "Space" | "edges"    | 227   |
+---------+------------+-------+

相关的Exchange日志信息见下附件
csv_log.out (202.7 KB)
mysql_log.out (322.0 KB)

nicole · 2022 年8 月 12 日 14:15

看日志导入是成功的，你的serve 这个edge的配置是什么样的，如果没有配置rank的话，数据中是否存在源点和目标点相同的边数据。

Abel · 2022 年8 月 15 日 05:41

没有配置rank，数据是Nebula手册示例的数据，应该不会有问题吧

nicole · 2022 年8 月 15 日 05:54

如下是你自己通过console导入的ngql语句，有6条数据是有rank的，且这6条数据存在和其相同的src dst id数据的。当你用同样的数据集使用exchange导入时，在没有配置rank的情况下这6条数据会覆盖掉具有相同 src dst的数据。所以你的数据会少6条。

Abel · 2022 年8 月 17 日 10:48

感谢大佬！总算找到原因了

system · 2022 年8 月 24 日 10:49

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。