2.5版本 banlance leader不起作用

端口看着都正常呢

我是直接拿2.0.1版本升级到2.5.1的,配置文件都没改过呢,升级前balance leader还是可用的。刚才试了下19559、19669、19779、19780这些端口也是正常的

有一台storage的日志和其它服务不一样

块引用
E1028 10:34:44.355659 24824 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 5] Receive response about askForVote from “172.19.143.226”:9780, error code is E_UNKNOWN_PART
E1028 10:34:44.429636 24824 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 9] Receive response about askForVote from “172.19.143.226”:9780, error code is E_UNKNOWN_PART
E1028 10:34:44.587910 24823 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 4] Receive response about askForVote from “172.19.143.226”:9780, error code is E_UNKNOWN_PART
E1028 10:34:44.886487 24822 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 20] Receive response about askForVote from “172.19.143.226”:9780, error code is E_UNKNOWN_PART
E1028 10:34:44.900859 24824 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 1] Receive response about askForVote from “172.19.143.226”:9780, error code is E_UNKNOWN_PART
E1028 10:35:05.969920 24823 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 15] Receive response about askForVote from “172.19.143.227”:9780, error code is E_UNKNOWN_PART
E1028 10:35:06.330148 24817 Host.cpp:375] [Port: 9780, Space: 90, Part: 5] [Host: 172.19.143.227:9780] Failed to append logs to the host (Err: E_UNKNOWN_PART)
E1028 10:35:06.332677 24824 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 19] Receive response about askForVote from “172.19.143.227”:9780, error code is E_UNKNOWN_PART
E1028 10:35:06.446908 24824 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 11] Receive response about askForVote from “172.19.143.227”:9780, error code is E_UNKNOWN_PART
E1028 10:35:07.217571 24824 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 15] Receive response about askForVote from “172.19.143.227”:9780, error code is E_UNKNOWN_PART

那你还能退到2.0.1吗 6楼是说改配置了? 找报Heartbeat failed那个机器 然后netstat grep对应meta接口 看链接啥状况 日志已经说了链接没建立 先把这个解决了再说

配置没有改呢,虽然日志报了错,但是我这边netstat结果都是ESTABLISHED状态呢

你按照上面 critical 27 的方法操作下,然后截图下相关的情况,- -。不然问题就卡在这,进行不下去了



看着貌似没啥问题,第一张图是日志,第二张是netstat结果

看上去像是有机器开启了防火墙

这是阿里云内网搭建的集群,没有防火墙的

所有配置里面meta_server_addrs是啥 你的图是在哪个机器执行的?为啥9559端口只有225和226建立了

–meta_server_addrs=172.19.143.224:9559,172.19.143.225:9559,172.19.143.226:9559
这个日志只有ERROR日志的开头有几行,我猜测这个会不会跟我启动nebula的顺序有关,我是按照224->225->226这个顺序启动的,224这台服务器启动的时候连不上225和226也是正常的吧?

这个图是在224这台服务器上执行的,heartbeat fail只有开头几条有,但是E_TERM_OUT_OF_DATE和E_UNKNOWN_PART这两个错误倒是挺多的

还有其他办法查么?

那有可能,如果这样和网络没啥关系

你是把storage和meta都清空了吗,还是只清空了meta?你可以停掉,你全部机器全部清掉,重启。balance leader和版本没啥关系,也没改。可能是哪里误操作了

meta和storage都清空了。之前就是数据全删了,然后版本升级,重启后重新导入数据。才出现了这个问题。目前正在用,停不了。我后面观察一下吧,暂时其他功能还正常

哦 如果只是balance leader有问题 那我可能知道了 你看看几台机器的时间是不是差不多的

可能是什么原因,我也遇到了这个问题,明明不平衡却显示平衡了,我的是v2.6.1

刚才看了下,时间基本上是一致的

咋知道不平衡的