Spark reader两次读入的vertice和edge的数量不一致

SZU-IC · 2021 年2 月 3 日 02:18

nebula 版本：1.2
Spark Reader 版本：1.1.0
部署方式（分布式 / 单机 / Docker / DBaaS）：docker
问题的具体描述：
使用Spark reader进行读取图库，分别得到verticeRDD和edgeRDD，然后使用GraphX里的图构造方法构造成图。通过日志发现两次形成图的点和边的个数不一致，第一次vertice和edge分别是1.9亿、0.69亿，第二次vertice和edge的个数为1.4亿、0.77亿。而图库中vertice和edge的个数为3.2亿、1.3亿。

tom-chensf · 2021 年2 月 3 日 02:37

请检查一下 2次导入的点、边是否在同一个space 下，点和边是否有重复

SZU-IC · 2021 年2 月 3 日 02:44

两次都是在同一个space下的，因为使用spark-submit提交的是同一个jar包，点和边应该没有重复

yee · 2021 年2 月 3 日 02:59

nicole · 2021 年2 月 3 日 06:02

你确认下使用的Nebula版本，在1.2之前由于读取不同的part数据时拿不到leader信息是会有这个问题的。

SZU-IC · 2021 年2 月 3 日 06:19

是的，nebula版本就是1.2

nicole · 2021 年2 月 3 日 06:19

好的，我们这边试试复现一下

SZU-IC · 2021 年2 月 3 日 06:20

好的。麻烦啦

SZU-IC · 2021 年2 月 3 日 06:27

这个版本包括1.2嘛？

nicole · 2021 年2 月 3 日 07:14

你好，这边需要知道几项信息：

ps：不包括1.2版本的，且只会在多副本情况下出现数据读取不全。

SZU-IC · 2021 年2 月 3 日 07:28

总共有3个副本，enable_multi_versions配置没有开启

henson · 2021 年2 月 3 日 07:40

mark

nicole · 2021 年2 月 3 日 11:54

我用nebula1.2 服务试了下，多副本space，导入一亿的点，是可以读出来，你docker ps贴一下吧

=

SZU-IC · 2021 年2 月 4 日 01:15

你好，我这个时docker swarm部署的

nicole · 2021 年2 月 4 日 01:50

可以直接 docker ps，贴一下结果信息吧

SZU-IC · 2021 年2 月 4 日 02:25

这是docker ps结果信息，麻烦看一下

yee · 2021 年2 月 4 日 04:05

看你的 nebula 的镜像的 tag 都是打的 v1.1.0，这不是 1.2.0 的版本呀，你确认更新一下，再验证试试

nicole · 2021 年2 月 4 日 04:10

很明确，你用的1.1.0的版本。1.2之前存在这个问题的。

SZU-IC · 2021 年2 月 4 日 04:19

镜像已经换为了1.2，只是打的tag还是1.1.0

yee · 2021 年2 月 4 日 05:35

如果服务镜像是 1.2 并重启服务后，spark reader 依然会出现最早的问题吗？