importer导入csv文件失败:log报错ErrMsg: Storage Error: part: 48, error: E_RPC_FAILURE(-3)., ErrCode: -8

  • nebula 版本:v2.0.1
  • 部署方式(分布式 / 单机 / Docker / DBaaS):docker swarm
  • 是否为线上版本:Y / N
  • 硬件信息
    • 磁盘( 推荐使用 SSD)ssd 960g x 2
    • CPU、内存信息 36 core, 128g mem

这个导入问题在论坛里看到过类似的帖子,比如

  1. 关于Nebula Graph 性能评测的问题,文档不够详细准确
  2. Storage Error: The leader has changed. Try again later ,Storage Error: part: 22, error: E_RPC_FAILURE(-3). 查询经常抱着两个错
  3. storaged性能问题

由于日志在内网无法导出,日志报错和3.中的报错最为相似。根据记忆,我这边的具体报错有几类:

  1. Invalidate the leader for [7, 14]
  2. insertVerticesExecutor failed, error E_RPC_FAILURE, part 14
  3. Request to “192.122.3.11”:44500 failed: N6apache6thrift9transport19TTransportExceptionE:
  4. Storage Error: part: 48, error: E_RPC_FAILURE(-3)., ErrCode: -8

现象1:

一开始以为是数据问题,因为测试插入10条数据,其中5条成功5条失败。后来发现vertex id以1、3、4、7结尾的row都会插入失败。
通过观察日志发现连不上其中一台服务器request to 192.122.3.11:44500 failed. 意识到不是数据问题,是被分发到该台服务器上的数据才会失败。
首先可以排除镜像问题,其次可以排除数据问题,再次可以排除leader频繁改变的问题,因为log里没有这个。
将192.122.3.11这台服务器下线(balance data remove任务会失败,因为connect不上这台服务器,暴力移出docker swarm集群并将服务器上的数据全删除,修改配置文件后重新deploy),集群能正常导入数据,大概avg row(50-100w/s)。

现象2:

尝试导入example nba的数据,是没有问题的。192.122.3.11上也有数据。

问题:

  1. 为什么导入ldbc数据就会出现该问题(哪怕只是10条),而导入官网例子nba就没问题呢?
  2. 为什么只有192.122.3.11会出问题,其他服务器都能正常工作呢?

还请nebula的朋友帮忙定位以下问题

集群配置文件如下:(192.122.3.11对应ip2)
nebula-v2-swarm.yaml (7.9 KB)

importer配置文件如下:
ldbc-importer.yaml (9.6 KB)

这个后面的内容可以贴下吗?

针对你的现象1,有个服务挂了,你的space是几副本的?假如你创建是space不是多副本,那个那个机器对应的partition就无法提供服务。
针对你的现象2里面的问题,你可以贴下这个后面的日志吗?

Request to “192.122.3.11”:44500 failed: N6apache6thrift9transport19TTransportExceptionE:

还有你执行 show hots结果截图下,还有每台机器的配置是否都是一致的。

这个当时通过docker service ls查看了所有服务都是正常的。space是1副本。

在下线前,show hosts都显示的是online,partition和leader数量都是对的。
每台机器的配置是完全一样的(物理机器一致,配置文件方面storaged用的是同一个模版改了ip而已)

日志我让同事查一下再来补充

你使用多机器,那么为了保证数据的安全性,space最好设置为多副本,不然有机器下线,有的数据就丢了。

嗯嗯,正在将那台失败的机器重新加入集群并创建新的space(副本为3),看看这次导入数据会不会出现之前连接meta失败的问题有问题

我将之前下线的机器重新加入集群,并且新建了一个3副本的图空间,导入数据正常。
但是balance data失败。(问题总是出在同一台机器上)

详情见这个帖子:balance data失败 - #2 由 darionyaphet

该主题在最后一个回复创建后30天后自动关闭。不再允许新的回复。