worker 1 (pid: 92) died, killed by signal 9 :( trying respawn

Socket read failed 基本就是网络问题了
服务有crash过吗? docker 里有没有配置健康检查, 发现down的服务自动重启?

1 个赞

你可以把整个服务拿到一个单独用途的服务器里部署观察看看有没有重现问题么?排除外部因素,比如某个周期任务造成网络不通

有健康检查,她贴的 inspect 里还有 health check 的 log,都是 running 的

因为我是两个服务器,213机器部署的nebula,174机器部署的查询服务,会不会有这个原因。
对应的nebula-importer的配置文件,里边的address我还是127.0.0.1
543030411228349740

和 importer 有什么关系呢?现在就是你的 python 程序会定期访问不到 GraphD,如果能排除 GraphD 自己除了异常,那就是网络会定期异常,我建议你把程序换到另外的网络环境,看看能不能复现问题,帮助定位。

好的,我换个环境试试

1 个赞

你用的是2.6的内核吧 为啥importer里面version指定的v1rc1

1 个赞

对,是2.6,按照知乎里的模板写的v1rc1。请问需要改成什么?

我是213机器部署的nebula,174机器部署的查询服务。应该是远程访问,是否需要修改配置:

应该是 v2 哈,参考 https://github.com/vesoft-inc/nebula-importer/tree/master/examples/v2

我理解这里只是涉及你开始导入数据对吧?你当下出问题的这个线上应用和它有关系么?


我现在试试看

1 个赞

我改了这些:
image

还是有问题,但是好像时间长一点后,才出问题
感觉和channelBufferSize有问题,这个是不是应该设置的再大点?

你这个 importer 是另一个问题吧,不是这个帖子的 Django 异常 sig 9 的问题,你可以开一个新的帖子说这个 importer 的问题,而且好像你没提importer 的问题是什么哈

导入挺快的,但是sig 9问题还是没有解决

嗯嗯,我理解 importer 和这个问题没关系,如果 importer 有问题可以另外开一个帖子哈。

这个 sig9 的问题昨晚咱们上边讨论的进展是 time out,而它的可能要么是 graphd 不正常,要么 python 运行的环境到 graphd 网络不正常,看起来你能排除 graphd 不正常,所以要看看是不是client—>server的网络通路周期性出问题,可以试试把所有东西(django app)搬到另一个机器上看能不能复现哈。

好的,我尝试在同一台服务器试试,看看是否还有这个问题。

发包给 nebula, 但是收不到回包
感觉应该是这样的

  • 请问问题在另外的环境里能重现对么?排除网络、环境自身的问题哈,如果可能帮我们提供可复现环境会比较有帮助,比如提供最小的代码环境、docker 镜像

  • 包发了,收不到回应,可能只能说明从 Django 发出了,不一定就发到了 graphD,如果能进一步确定在 graphD 所在的容器能抓到包么,你可以利用 GitHub - nicolaka/netshoot: a Docker + Kubernetes network trouble-shooting swiss-army container 在 graphD 所在的容器网络抓包哈。

谢谢

1 个赞

你好,是网络问题,一段时间不操作,网络就断了。

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。