集群重启后不能访问 connection refused

提问参考模版:

  • nebula 版本:v3.3.0
  • 部署方式: 分布式 3台
  • 安装方式:源码编译
  • 是否为线上版本:Y
  • 硬件信息
    • 磁盘( 推荐使用 SSD)
    • CPU、内存信息
  • 问题的具体描述
    已经正常运转了一段时间,有一天studio报错connection refused,停止所有服务以后,storaged进程依然可以ps aux查到,只能通过kill停止,

    全部停止以后再次启动所有服务,studio依然报错connection refused,日志如下
    graphd日志:

    metad日志:

    storaged日志:

meta切主存在一些bug。

可以先把meta全部kill然后重新拉起,应该能恢复服务。

我们需要一点时间排查这个问题

所有进程都停掉以后重启还是失败,graphd进程短暂在线以后就消失了。日志:


主节点进程状态

子节点进程状态:


请问这也是meta的问题吗

还有,请问现在这个状态可以升级3.4.0吗

稍等,我让研发给你看看。

看上去一个节点的meta启动失败了,可以看下对应meta日志吗?




三个节点metad日志

你重启meta是三个都重启了吗?看上去有meta leader一直没成功进入启动流程。

是的,每一台都确认完全kill了进程再启动的

三台机器的状态是这样的,有一台的所有服务都不能启动,其他两台的graphd不能启动


这台完全没启动的会是什么原因呢,conf我都重新检查了一遍,应该是没问题的

:joy: 这个报错信息很简单了,你参考下这个文档:管理 Storage 主机 - NebulaGraph Database 手册

从 v3.0 开始,有个类似激活 storaged 的步骤,你对这文档执行下(也适用于其他非 v3.4 但是是 v3.x 版本的)

嗯嗯,我之前注册过这个,但是疑惑是为什么有一台的所有服务起不来,这个状态下我console也不能访问数据库,没办法注册storaged呀

试试这个可以不呢?

目前卸载重装可以正常访问了 :face_holding_back_tears:

:joy: 果然重启不行,重装总是万能的。那你看看有啥问题可以继续更新帖子

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。