leader count异常

  • nebula 版本:v1
  • 部署方式(分布式 / 单机 / Docker / DBaaS):分布式,docker swarm
  • 问题的具体描述:

三个节点分别在三台物理机上,一共8个service。
e-ds-m3 (master):metad, storaged
bigdata12: metad,storaged,graphd
bigdata: metad,storaged,graphd

在一次物理机重启后多个service挂掉状态变为0/1。通过restart container和用docker stack重新创建service的方式恢复了所有服务。
此时查看host状态:
从上至下分别为e-ds-m3,bigdata12,bigdata三台物理机。
发现第一个节点状态为online但是leader count为0,执行balance leader等待了数十分钟再次查询依然是0。

第一个节点(e-ds-m3)的meta和storage服务之前挂掉了,storage的容器还在直接restart容器恢复了service, 但是nebula-metad容器消失了,所以无法用restart container的方式重启容器,我就把挂掉的服务删除了,用docker stack deploy 创建/更新 了该节点上的meta服务。

进该节点metad容器查看log:

随后又看了其他两台节点上的meta容器里的log:

各节点上storage容器内的log:


你好,是在重启三台物理机后只有第一台的meta消失了吗?有头绪为什么只有这个meta消失了吗?还有就是可以检查下第一个节点的meta的volume映射,应该是用你本地的而不是容器内部的

目前没有任何头绪。
请问leader相关的异常是应该看storage还是meta的日志呢?

尝试了查询(一度关系好友查询),能返回数据(但是不确定返回的结果是全的,第一台机器上没有leader的话是不是在第一台机器上的结果是无法被返回的?)

刚刚开机看了一下leader又正常了。昨天大概30-40分钟都是0

今天开机的时候发现第一台机器上的storage service又变为0/1了。我像昨天一样一样rm service 重新deploy,这个问题没有复现。

---------更新------------

我正在做性能测试,过程中第一台机器的meta service又fail了。在metad0状态为shutdown时查看hosts,leader count正常。之前的异常情况依然没有复现。

meta service挂掉的原因不知道是不是因为java客户端那边一直在做一度二度三度好友关系查询引起的?
暂时没有头绪。查看service挂掉的原因是unhealthy container

重启在做compaction吧