importer导入csv文件失败：log报错ErrMsg: Storage Error: part: 48, error: E_RPC_FAILURE(-3)., ErrCode: -8

Jiayi98 · 2021 年6 月 6 日 07:18

nebula 版本：v2.0.1
部署方式（分布式 / 单机 / Docker / DBaaS）：docker swarm
是否为线上版本：Y / N
硬件信息
- 磁盘（推荐使用 SSD）ssd 960g x 2
- CPU、内存信息 36 core, 128g mem

这个导入问题在论坛里看到过类似的帖子，比如

由于日志在内网无法导出，日志报错和3.中的报错最为相似。根据记忆，我这边的具体报错有几类：

Invalidate the leader for [7, 14]
insertVerticesExecutor failed, error E_RPC_FAILURE, part 14
Request to “192.122.3.11”:44500 failed: N6apache6thrift9transport19TTransportExceptionE:
Storage Error: part: 48, error: E_RPC_FAILURE(-3)., ErrCode: -8

现象1:

一开始以为是数据问题，因为测试插入10条数据，其中5条成功5条失败。后来发现vertex id以1、3、4、7结尾的row都会插入失败。
通过观察日志发现连不上其中一台服务器request to 192.122.3.11:44500 failed. 意识到不是数据问题，是被分发到该台服务器上的数据才会失败。
首先可以排除镜像问题，其次可以排除数据问题，再次可以排除leader频繁改变的问题,因为log里没有这个。
将192.122.3.11这台服务器下线（balance data remove任务会失败，因为connect不上这台服务器，暴力移出docker swarm集群并将服务器上的数据全删除，修改配置文件后重新deploy），集群能正常导入数据，大概avg row(50-100w/s)。

现象2:

尝试导入example nba的数据，是没有问题的。192.122.3.11上也有数据。

问题：

为什么导入ldbc数据就会出现该问题（哪怕只是10条），而导入官网例子nba就没问题呢？
为什么只有192.122.3.11会出问题，其他服务器都能正常工作呢？

还请nebula的朋友帮忙定位以下问题

集群配置文件如下：（192.122.3.11对应ip2）
nebula-v2-swarm.yaml (7.9 KB)

importer配置文件如下：
ldbc-importer.yaml (9.6 KB)

dingding · 2021 年6 月 8 日 02:52

这个后面的内容可以贴下吗？

针对你的现象1，有个服务挂了，你的space是几副本的？假如你创建是space不是多副本，那个那个机器对应的partition就无法提供服务。
针对你的现象2里面的问题，你可以贴下这个后面的日志吗？

Request to “192.122.3.11”:44500 failed: N6apache6thrift9transport19TTransportExceptionE:

还有你执行 show hots结果截图下，还有每台机器的配置是否都是一致的。

Jiayi98 · 2021 年6 月 8 日 09:54

这个当时通过docker service ls查看了所有服务都是正常的。space是1副本。

在下线前，show hosts都显示的是online，partition和leader数量都是对的。
每台机器的配置是完全一样的(物理机器一致，配置文件方面storaged用的是同一个模版改了ip而已)

日志我让同事查一下再来补充

dingding · 2021 年6 月 9 日 01:21

你使用多机器，那么为了保证数据的安全性，space最好设置为多副本，不然有机器下线，有的数据就丢了。

Jiayi98 · 2021 年6 月 9 日 01:57

嗯嗯，正在将那台失败的机器重新加入集群并创建新的space(副本为3),看看这次导入数据会不会出现之前连接meta失败的问题有问题

Jiayi98 · 2021 年6 月 15 日 04:08

我将之前下线的机器重新加入集群，并且新建了一个3副本的图空间，导入数据正常。
但是balance data失败。(问题总是出在同一台机器上)

详情见这个帖子：balance data失败 - #2 由 darionyaphet

system · 2021 年7 月 15 日 04:08

该主题在最后一个回复创建后30天后自动关闭。不再允许新的回复。