Heartbeat failed, status:Wrong cluster!

  • nebula 版本:3.8.0
  • 部署方式:分布式 共5台服务器,3台metad+storaged,两台graphd
  • 安装方式:源码编译
  • 是否上生产环境:Y
  • 硬件信息
    • 磁盘 HDD
    • CPU、内存信息 16c62G
  • 问题的具体描述
  • 凌晨三台storaged日志突然报错:Heartbeat failed, status:Wrong cluster!,metad日志显示: Reject wrong cluster host,报错前毫无征兆,凌晨时刻没有任何配置修改或者集群变更,也没有人进行读写,集群属于静止状态
  • 具体storaged日志如下:
  • storaged01
  • storaged02
  • storaged03
  • metad日志如下:
  • metad01
  • metad02
  • metad03
  • message日志中无与storaged相关内容
    希望各位老师可以在此贴下积极讨论,希望可以明确导致原因,至于具体的解决办法,如采用官方文档的重置cluster.id文件操作,会导致集群重建,数据丢失,比较暴力,希望可以探讨出一个比较温和且有效的解决办法。如各位老师,有遇到相同情况或者有新思路,也可主动与我联系,具体邮箱为13032433149@163.com,谢谢!

在发现集群连接异常的第一时间就登录服务器查看服务状态,metad、storaged、graphd进程都在,但是登陆console客户端连接工具show hosts发现storaged都是offline的状态。查看日志如上,尝试重启storaged服务,服务无法正常启动,具体报错如下:

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。