Star

滚动升级,关闭storage时,非常慢,且有异常日志出现

版本
20200910的nightly
现象
使用neabula.service stop storaged时,不能立刻关闭
并且在errorlog中有以下信息,很多条类似的

E0921 16:13:49.345420  2124 FileBasedWalIterator.cpp:35] [Port: 44501, Space: 3,Part: 1053] The given log id 1 is out of the range, the wal firstLogId is 54991886

请问这种情况正常吗?

我又来了,我印象里之前那个集群是一直有机器不正常,后来没管,说等新版本对吧?这期间是不是一直没有写?0910后面还有一个改动其实没有合进去。

1赞

哈哈哈 记忆太好了… 好吧… 那先不排查这个问题了…本来也不是release版~
那我这次重头再来吧 彻底从1.10开始了 ~

是一直没有写入是吧?然后开始滚动升级就废了?

对 停了好久 没写入了
另外其实也没废彻底… 就是stop很慢… 反正等等倒是最终也能stop掉

stop慢是因为已经开始发raft的snapshot了,所以各种慢。可以查,不过得麻烦你show parts 1053,然后把三个机器的storage日志grep "Space: 3,Part: 1053"发给我看看。这个问题在1.1.0是修复了的,但是因为之前的bug,所以升级过程中可能会有各种问题。

PS: 1.1.0今天发了,你那边是准备重新导入数据?还是在现在这个集群上直接升级?

show了一下,只在其中一台机器上找到了日志

E0921 16:07:23.252612 17700 RaftPart.cpp:1075] [Port: 44501, Space: 3, Part: 1053] Receive response about askForVote from [x:44501], error code is -6
E0921 16:07:24.406417 17699 RaftPart.cpp:1075] [Port: 44501, Space: 3, Part: 1053] Receive response about askForVote from [x:44501], error code is -6
E0921 16:07:25.439190 17699 RaftPart.cpp:1075] [Port: 44501, Space: 3, Part: 1053] Receive response about askForVote from [x:44501], error code is -6
E0921 16:07:26.745591 17700 RaftPart.cpp:1075] [Port: 44501, Space: 3, Part: 1053] Receive response about askForVote from [x:44501], error code is -6
E0921 16:07:28.650280 17701 RaftPart.cpp:1075] [Port: 44501, Space: 3, Part: 1053] Receive response about askForVote from [x:44501], error code is -6

PS:没重新导入数据,在现有集群上进行的升级,就是等待stop时间久,最终还是stop了,然后最终整体升级完成了,然后又再次试了一下stop,这回stop很快,stop之后的leader是乱的,然后做一次balance leader后恢复平衡
但是貌似也还是不太正常,因为balance leader的时间很久,而且发现日志中也有错误出现,错误和上面的一致

有info日志吗?

没啦…日志级别从warning开始的~

好吧。最好上1.1.0之后用info日志,否则生产环境出问题都不好查。

浙ICP备20010487号