2.5版本 banlance leader不起作用

版本2.5.1,show hosts查看leader不均衡, banlance leader后也没用,2.0.1版本是有效的

把机器配置贴一下,然后 balance leader 之前你做过 balance data 吗?

配置:4台16核128G内存的服务器组建的集群

data分片是均衡的,所以只做了balance leader

你的 storage 上有啥日志?贴一下,然后你各个机器的时间设定是一致的吗?

时间设定基本一致,相差不超过3s,看了下storage的error日志,只有下面两行,感觉也不是这个引起的。
E1022 20:09:01.049623 5182 MetaClient.cpp:635] Send request to “172.19.143.225”:9559, exceed retry limit
E1022 20:09:01.049914 5141 MetaClient.cpp:65] Heartbeat failed, status:RPC failure in MetaClient: N6apache6thrift9transport19TTransportExceptionE: AsyncSocketException: connect failed, type = Socket not open, errno = 111 (Connection refused): Connection refused

我已经找到问题了,我的master节点由4个改成了3个,有几个storage的配置没有改过来,谢谢

1 个赞

修改完了,集群重启,貌似还是不管用

2.0.1的时候是正常的,升级到2.5.1之后,我把数据全部清空了,都不能balance leader

show hosts图贴下
额 大概率还是你的配置不对

这个还有吗

有的,还多了一些其他错误
E1028 10:34:17.735702 12478 MetaClient.cpp:635] Send request to “172.19.143.225”:9559, exceed retry limit
E1028 10:34:17.736052 12437 MetaClient.cpp:65] Heartbeat failed, status:RPC failure in MetaClient: N6apache6thrift9transport19TTransportExceptionE: AsyncSocketException: connect failed, type = Socket not open, errno = 111 (Connection refused): Connection refused
E1028 10:35:19.389958 12642 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 16] Receive response about askForVote from “172.19.143.225”:9780, error code is E_TERM_OUT_OF_DATE
E1028 10:35:19.390007 12642 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 16] Receive response about askForVote from “172.19.143.226”:9780, error code is E_TERM_OUT_OF_DATE

额 和这个贴是一波人吗 Storaged进程无法启动 - #7,来自 fengliang
网一定是有问题啊 查端口是不是被占用了

不是一起的,我这里查询status是正常的,而且这次新出现了上千条E_TERM_OUT_OF_DATE的错误。之前master配错的时候还没有。

你试试全部停掉 把所有storage里的data_path路径下的data_path/nebula/spaceId/wal做下备份(各个space独立的) 然后删掉 重启 看看能行吗

不过还是推荐先看看网 因为网一定是有问题的 就算按上面操作做了 也有问题

Heartbeat failed这个日志就不该有 netstat或者ss看看

不行的,我上次清空数据试过,不行,而且我还有另外一个集群,用了完全不同的端口,但是报的错误一模一样。
这是另一个集群的日志

所以你得去查配置和网络啊 一定是有错的…… 要么配错了 要么重复了 要么被占用了……

9780端口么?

能列举一下nebula有哪些隐藏端口么?我这边配置文件里的端口貌似都没问题

storage会占用配置里port, port + 1, port - 1, port - 2总共4个
meta会占用配置里的port, port + 1应该是两个
graph只占port
文档里应该有写