storaged节点突然宕机如何将它存储的raft副本迁移至别的机器？

GestureWei · 2021 年12 月 2 日 04:47

nebula 版本：1.2.1 & 2.6.0等多个集群
部署方式：分布式
安装方式：源码编译
是否为线上版本： Y
在实际使用nebula时遇到如下问题：
（1）storaged所在节点因为硬件故障物理宕机后，如何快速将其存储的raft副本迁移至其他集群内可用机器？尝试balance data remove失败，该命令要求被移除节点必须在线。
（2）如果该节点同时也是metad节点，是否可以在一台新机器上直接启动metad并修改配置文件实现metad的恢复至3台服务？

cangfengzhs · 2021 年12 月 2 日 07:56

@critical27 我就说我们需要做failover吧。。。

GestureWei · 2021 年12 月 2 日 12:14

这个Failover是指？我们现在有什么运维手段可以帮助恢复吗？部分partition只有两个副本存在的话就无法容忍再出现宕机了

critical27 · 2021 年12 月 3 日 11:22

这个我印象里不要求在线，贴下截图和日志

GestureWei · 2021 年12 月 4 日 07:28

看了一下代码实现并且尝试了一下，确实离线状态下也可以，但是在balance data过程中新加的learner角色追数据的时候会出现内存暴涨最终导致OOM失败，内存占用情况可见截图

system · 2022 年1 月 3 日 07:29

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。