从neo4j导入nebula之后丢了部分数据

  • nebula 版本:v1.1.0
  • 部署方式(分布式 / 单机 / Docker / DBaaS):单机,三节点
  • 问题的具体描述
    neo4j导入nebula之前,先查了一下neo4j目前的节点label数据量:41637248
    image
    导入nebula之后:41615393,少了21855条数据。
    image
  • 问题线索
    spark write导入完的日志,由于导入花了大概12个多小时,之前的日志都刷过去了。

    spark writer conf配置文件
    image
    neo4j中mobile label只有一个vid属性string类型,记录电话号码,并且加了唯一约束和索引
    image
    image

单机三节点是啥意思?三个storaged在一台机器?

@nicole spark writer失败部分的日志会有特别记录吗,不知道是不是导入过程中有失败的情况。

是的
image

这个是哪个目录的dump?3个storaged那就应该有三个数据目录。

另外,单机用3个storaged 完全没有必要

三个数据目录都是一样的count,我只列了一个。三个storage 只是由于机器只有一台,部署集群先做备库测试一下。

如果3个storaged进程访问同一个数据目录,一定是有问题的。

三个storage分别在三个目录
image

ok

那为什么3个目录 用dump出来的数据量一模一样,这不对吧。
show hosts
show partition
看下partition分布

你好,dump统计之前有没有进行submit job flush操作呢

他可以是三副本

是的

刚刚三个节点都执行了一下submit job flush; 结果统计还是一样的。

问下这个字段可能会有NULL吗?唯一约束似乎不限制NULL

没有null值
image

我没有把spark writer输出到日志文件,不好排除是不是有插入失败的情况。

要不我今晚再跑一次吧,明早看一下结果,把日志打印出来。

我感觉就是写失败了一部分,没有处理