Balance data remove耗时长

Jiayi98 · 2021 年3 月 4 日 04:20

三个节点，每个节点上的数据大概是25个g左右。需要下线一个节点，缩容。
执行balance data remove后18分钟查看进度发现达到92%，过了一个多小时后再查看发现进度卡在了92%，也没有fail，请问这个怎么解决？

liuyu85cn · 2021 年3 月 4 日 04:40

能贴一下 meta 的日志吗? meta.INFO

Jiayi98 · 2021 年3 月 4 日 04:56

这是要下线的节点上的metad容器内的日志。谢谢！

Jiayi98 · 2021 年3 月 4 日 05:02

由于状态显示的是in progress，根据文档里的描述我执行balance data stop应该也没用。

由于每个 balance 计划对应若干个 balance task，BALANCE DATA STOP 不会停止已经开始执行的 balance task，只会取消后续的 task。

critical27 · 2021 年3 月 4 日 06:54

需要贴meta leader的日志三个meta里面有一个INFO日志会比其他的大很多那个是leader

Jiayi98 · 2021 年3 月 4 日 07:11

这是leader node上的日志

日志里第一行中

[Host:192.168.1.12:45501] Failed to append logs to the host…

192.168.1.12这个IP是要下线的那个节点

这是另一个worker node上的日志

critical27 · 2021 年3 月 4 日 07:12

minloglevel日志等级是多少？怎么看着什么日志都没有

Jiayi98 · 2021 年3 月 4 日 07:14

没有改过应该是默认值，貌似是0？

leader的日志里第一行中有提到failed to append logs to the host

critical27 · 2021 年3 月 4 日 07:15

show configs能看，还有可能是日志太多被切分了，需要看对应时间的那个

Jiayi98 · 2021 年3 月 4 日 07:20

minloglevel=2.
应该不是日志太多被切分，今天只有一个日志0304对应的内容和上图里的一摸一样。
leader的日志里第一行中有提到failed to append logs to the host

critical27 · 2021 年3 月 4 日 07:22

改成0然后重启再开始一次需要看日志

Jiayi98 · 2021 年3 月 4 日 07:25

重启再开始一次

请问这个指的是重启要下线的那个节点，在开始一次balance data remove这个任务吗？

Jiayi98 · 2021 年3 月 5 日 04:11

重启后就从in progress变成了fail，然后再执行一次balance data就成功了。
不过还是不知道是什么原因导致的一路正常运行到了最后三个就卡住了

Jiayi98 · 2021 年3 月 8 日 01:38

@critical27 @liuyu85cn
请问invalid是个什么状态？我可能有一系列不当操作导致在扩容的时候卡在了invalid和in grogress。

在成功缩容后，再次扩容（上线的节点=之前被下线的节点）。出现了invalid，并且卡在in progress。
第一次：查看日志后发现是already exist导致了invalid
处理方式：把上线的节点的volume直接删了重新deploy

尝试了重启在开始一次，依然是同样的问题。
第二次：查看日志发现是超不到对应的partition wal导致了invalid。查看storage/目录下的文件，能找到报错的part

求助

critical27 · 2021 年3 月 9 日 09:08

贴下日志吧我现在说不好。我猜可能是“在成功缩容后，再次扩容”之后生成的plan有问题或者执行了一个错误的plan。

darionyaphet · 2021 年3 月 11 日 02:38

应该有一个 Task invalid, status 日志吧