- nebula 版本:3.2.0
- 部署方式:分布式
- 安装方式:RPM
- 是否为线上版本:Y
- 硬件信息
- 磁盘( 推荐使用 SSD)
- CPU、内存信息 32核128G
- 问题的具体描述
- 相关的 meta / storage / graph info 日志信息
E20221209 14:02:18.692587 62846 QueryInstance.cpp:137] Conflict!
(root@nebula) [(none)]> drop hosts 192.168.92.114:9779
[ERROR (-1005)]: Conflict!
这个机器nebula-sto已经关了,进程已经停掉了
只进程关掉是不可以的,可以看看space分布在该主机上的part
1 个赞
还有个问题,机器故障了,副本也不能补全,这个要怎么操作
所以你是有一个机器完全不能启动了?所以想移除掉吗?可以把部署情况看一下吗?如果还有半数以上正常,可能重新拉起一个没有数据的服务可以等待补完。 你可以把上下文补全后来看看。
这台机器已经挂了,我想drop这台机器,加上另一台机器
可以试试扩缩容,balance data,但是记得扩缩容时开启实验特性,但是扩缩容结束后重启关闭实验特性。比较关心这台机器为何被判死刑。
不能直接删除,毕竟这个主机上还是有一些数据的,我去确认下是否可以平滑解决这种场景。
你可以先增加一个hosts,然后通过data balance remove的方式去掉这个坏掉的hosts
【记得扩缩容时开启实验特性,但是扩缩容结束后重启关闭实验特性】
你仍然可以使用剩下的机器完成服务,或者添加新的机器。需要注意:(1)最好先做一下balance leader。将坏掉机器上的leader partition切换到其他机器上。(照理会自动做)(2)尽快加入新机器,等待自动补全,然后按需做balance leader和data。当然如果新加入的storaged机器IP地址变了,需要修改config后重启,或者通过http接口修改。
至于是否需要drop hosts。不用担心。现在坏掉的那台机器状态是offline。默认24小时候会被自动删除。
你是说24小时后,show hosts storaged,该hosts 还显示吗?并且为offline吗?
如果是的话,看看removed_threshold_sec 这个参数你设置的是多少?
system
关闭
20
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。