版本2.5.1,show hosts查看leader不均衡, banlance leader后也没用,2.0.1版本是有效的
把机器配置贴一下,然后 balance leader 之前你做过 balance data 吗?
配置:4台16核128G内存的服务器组建的集群
data分片是均衡的,所以只做了balance leader
你的 storage 上有啥日志?贴一下,然后你各个机器的时间设定是一致的吗?
时间设定基本一致,相差不超过3s,看了下storage的error日志,只有下面两行,感觉也不是这个引起的。
E1022 20:09:01.049623 5182 MetaClient.cpp:635] Send request to “172.19.143.225”:9559, exceed retry limit
E1022 20:09:01.049914 5141 MetaClient.cpp:65] Heartbeat failed, status:RPC failure in MetaClient: N6apache6thrift9transport19TTransportExceptionE: AsyncSocketException: connect failed, type = Socket not open, errno = 111 (Connection refused): Connection refused
我已经找到问题了,我的master节点由4个改成了3个,有几个storage的配置没有改过来,谢谢
修改完了,集群重启,貌似还是不管用
2.0.1的时候是正常的,升级到2.5.1之后,我把数据全部清空了,都不能balance leader
show hosts图贴下
额 大概率还是你的配置不对
这个还有吗
有的,还多了一些其他错误
E1028 10:34:17.735702 12478 MetaClient.cpp:635] Send request to “172.19.143.225”:9559, exceed retry limit
E1028 10:34:17.736052 12437 MetaClient.cpp:65] Heartbeat failed, status:RPC failure in MetaClient: N6apache6thrift9transport19TTransportExceptionE: AsyncSocketException: connect failed, type = Socket not open, errno = 111 (Connection refused): Connection refused
E1028 10:35:19.389958 12642 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 16] Receive response about askForVote from “172.19.143.225”:9780, error code is E_TERM_OUT_OF_DATE
E1028 10:35:19.390007 12642 RaftPart.cpp:1118] [Port: 9780, Space: 90, Part: 16] Receive response about askForVote from “172.19.143.226”:9780, error code is E_TERM_OUT_OF_DATE
你试试全部停掉 把所有storage里的data_path路径下的data_path/nebula/spaceId/wal做下备份(各个space独立的) 然后删掉 重启 看看能行吗
不过还是推荐先看看网 因为网一定是有问题的 就算按上面操作做了 也有问题
Heartbeat failed这个日志就不该有 netstat或者ss看看
所以你得去查配置和网络啊 一定是有错的…… 要么配错了 要么重复了 要么被占用了……
能列举一下nebula有哪些隐藏端口么?我这边配置文件里的端口貌似都没问题
storage会占用配置里port, port + 1, port - 1, port - 2总共4个
meta会占用配置里的port, port + 1应该是两个
graph只占port
文档里应该有写