Star

balance leader时产生的问题

背景在这里

大量compact后导致leader分布不均匀…

balance leader不生效,之前提过一个帖子,不存在这个帖子里的问题,配置没问题,心跳也没问题

此次的表现是
执行balance leader时间非常长,大概30s+
然后其中有一台机器的Leader count非常多,而且执行多次balance leader后也降不下来

于是查看这台机器的storage日志,有大量如下日志(上次排查balance问题时,未出现过类似日志)

E0827 10:18:51.135608 14072 RaftPart.cpp:1667] [Port: 44501, Space: 22, Part: 127] The current role is Leader. The local term is 20. The remote term is not newer: Resource temporarily unavailable [11]
E0827 10:18:51.142984 14080 RaftPart.cpp:1667] [Port: 44501, Space: 22, Part: 937] The current role is Leader. The local term is 6. The remote term is not newer: Resource temporarily unavailable [11]
E0827 10:18:51.150346 14081 RaftPart.cpp:1667] [Port: 44501, Space: 22, Part: 127] The current role is Leader. The local term is 20. The remote term is not newer: Resource temporarily unavailable [11]

麻烦问下应该如何处理?~

现在代码里有 bug, 有可能出现 compaction 之后选不出来 leader 的问题, pr 这两天会发, 我们会测试一段时间, 随着 1.0.2 发布.

您现在的集群状态还可用吗?

介于可用和不可用之间吧… 不是所有请求都报错…但是会持续不间断的报错…(我指的是insert或go请求)

嗯, 看起来就是 127, 跟 937 这两个 part 不可用了, 所有 hash 到这两个 part 的 vid 都不太可用.

是不是很多机器都有这种状况? 我看您之前说有 30 台机器?

嗯嗯 是30台
从show hosts 来看
只有一台机器是明显不均匀的~
别人都是80左右~ 这台是稳定的150…

然后从日志来看…抽看了几台机器…有些机器是如下的日志

E0827 11:23:26.733319 12211 RaftPart.cpp:1667] [Port: 44501, Space: 22, Part: 937] The current role is Candidate. The local term is 6. The remote term is not newer: Resource temporarily unavailable [11]

嗯 应该是不止那两个part… 我给您截取了部分日志…

现在有啥好的临时解决方案嘛?~

能编译吗?

没编译过~ 之前是rpm安装的…得试一下~

如果您那边可以编译, 倒是可以出个魔改版, 帮您把状态改出来

哦哦 我打算暂时先这样了~ 想直接等您发版了~ 谢谢您~

:joy:

浙ICP备20010487号