leader count异常

Jiayi98 · 2021 年2 月 7 日 02:20

nebula 版本：v1
部署方式（分布式 / 单机 / Docker / DBaaS）：分布式，docker swarm
问题的具体描述：

三个节点分别在三台物理机上，一共8个service。
e-ds-m3 (master)：metad, storaged
bigdata12: metad,storaged,graphd
bigdata: metad,storaged,graphd

在一次物理机重启后多个service挂掉状态变为0/1。通过restart container和用docker stack重新创建service的方式恢复了所有服务。
此时查看host状态：
从上至下分别为e-ds-m3，bigdata12，bigdata三台物理机。
发现第一个节点状态为online但是leader count为0，执行balance leader等待了数十分钟再次查询依然是0。

第一个节点（e-ds-m3）的meta和storage服务之前挂掉了，storage的容器还在直接restart容器恢复了service，但是nebula-metad容器消失了，所以无法用restart container的方式重启容器，我就把挂掉的服务删除了，用docker stack deploy 创建/更新了该节点上的meta服务。

进该节点metad容器查看log：

随后又看了其他两台节点上的meta容器里的log：

各节点上storage容器内的log：

Aiee · 2021 年2 月 7 日 06:24

你好，是在重启三台物理机后只有第一台的meta消失了吗？有头绪为什么只有这个meta消失了吗？还有就是可以检查下第一个节点的meta的volume映射，应该是用你本地的而不是容器内部的

Jiayi98 · 2021 年2 月 7 日 06:38

目前没有任何头绪。
请问leader相关的异常是应该看storage还是meta的日志呢？

尝试了查询（一度关系好友查询），能返回数据（但是不确定返回的结果是全的，第一台机器上没有leader的话是不是在第一台机器上的结果是无法被返回的？）

Jiayi98 · 2021 年2 月 7 日 06:58

刚刚开机看了一下leader又正常了。昨天大概30-40分钟都是0

今天开机的时候发现第一台机器上的storage service又变为0/1了。我像昨天一样一样rm service 重新deploy，这个问题没有复现。

---------更新------------

我正在做性能测试，过程中第一台机器的meta service又fail了。在metad0状态为shutdown时查看hosts，leader count正常。之前的异常情况依然没有复现。

meta service挂掉的原因不知道是不是因为java客户端那边一直在做一度二度三度好友关系查询引起的？
暂时没有头绪。查看service挂掉的原因是unhealthy container

critical27 · 2021 年2 月 7 日 11:18

重启在做compaction吧