lLee
1
- nebula 版本:3.0.0
- 部署方式:分布式
- 安装方式:源码编译
- 是否上生产环境:Y
- 硬件信息
- 磁盘( 推荐使用 SSD)
- CPU、内存信息
64U 128G
match 等查询语句 报 Storage error:not the leader of 6. please try later
且一直持续报这个错
storage日志中一直持续报错
E20240918 18:05:11.229059 3202175 AddVerticesProcessor.cpp:322] Error! ret = E_LEADER_CHANGED, spaceId 1
show hosts结果:
![image|690x89](upload://mUUZt7PmJDJBII9UguVtL5N3RuA.png)
重启storage、meta、graph也不生效
各位大佬帮看下是咋回事
lLee
3
offline的那个节点 的确是节点坏了 但是之前我们是按照可靠性坏一个节点的场景测试过 是没问题的
这次看着好像是144节点的分区没了 导致的
这种情况balance leader执行了也不生效
想知道:
1.这种分区不合法的情况是如何产生的
2.出现这种状况如何解决
lLee
5
跟那个不太一样 基本没负载
感觉是这个导致的
这个partition distribution 不合法可能是什么情况导致的喃
感觉你这个副本分布不对劲,你是单副本?还是三副本?如果是三副本,出现你截图的情况,看着像是data目录里面的文件有问题,或者metad服务记录的分片信息出问题了,是否移动过数据目录,或者修改过ip呢?
lLee
7
3副本 没有移动过数据目录 也没有修改过ip
修改ip为啥会出现这种状况喃
那就是144那台机器的副本信息丢失了,我没遇到过这种情况。
因为分片的信息会记录在metad节点,同时这些分片信息里面包含了ip。如果修改了ip,又没有把metad服务里分片的ip修改,也会出现144这台机器的这样情况,显示没有可用的分片
1 个赞