Storage节点重启后开始报checkTerm failed和outdate term

JuniorG · 2024 年4 月 22 日 01:34

nebula 3.2.1
报错如图，一直在打日志过一会就会把日志盘的空间打满，又重启了storage节点无法解决这个问题

steam · 2024 年4 月 22 日 03:05

你看下 nebula 的服务配置，log 的级别设置是多少。

你看下这个：运行日志 - NebulaGraph Database 手册看看能不能人工回收下日志。

JuniorG · 2024 年4 月 22 日 03:56

日志级别是1，也就是warning
后来实在受不了了50G的日志盘过一会就打满了，而且CPU占用很高，我给他改成了3
然后CPU下去了
现在不清楚该不该调回去。。。毕竟实际使用时还是要看日志排查问题的
所以想问下原因

steam · 2024 年4 月 22 日 03:59

是几个小时么。我的建议可能只是个参考哈，你是不是可以找点便宜的机械盘存储下相关的日志，然后机器的那个日志比较实时，可能只存储一天之内的日志信息呢？

JuniorG · 2024 年4 月 22 日 06:09

主要是想问下他一直在打同一个日志
就是spaceId99的part36一直是过期状态
这个报错有办法人工修复吗？看起来是有问题的但是不知道该如何修复
我能想到的就是删掉space后重新导数，这样可能能解决问题？但是这种代价有点高，因为数据已经在使用了
想请教下有没有其他方法

for_nebula_zy · 2024 年4 月 23 日 07:38

官方有大神，可以提供解决方法吗？

steam · 2024 年4 月 24 日 02:22

你的运行环境是集群还是单机？

JuniorG · 2024 年4 月 24 日 03:26

集群的，
3 graph
3 meta
7 storage
目前是其中一个storage一直报错，通过show parts可以看到是part36的leader所在的storage一直报错

steam · 2024 年4 月 24 日 03:36

你去某个图空间 show parts 下，得到 part36 对应机器的数据，然后把这个机器的 data 数据删下，然后等待数据同步过来。

为了保证稳妥，操作之前记得先备份下数据。

JuniorG · 2024 年4 月 24 日 06:23

我是3副本数据
show parts后看到在报错的节点是part36的leader
我删掉他的数据后会从另外两个从节点选主，然后同步数据给当前删数据的节点吗？

steam · 2024 年4 月 24 日 06:43

可以，你先备份下数据，能选得出来主。不过，如果你对这块不是特别了解的话，建议谨慎操作，最好不要做这个危险的操作。

JuniorG · 2024 年4 月 25 日 02:42

再深入请教一下哈，这里清理数据是指删掉data里的space99文件夹？还是吧space99文件夹里的数据删除？两者有区别吗？

steam · 2024 年4 月 25 日 03:44

两个没有区别。如果你是三副本三节点的话，你直接拷贝其他 storage 节点的数据到有问题节点就好了。但是你是 7 节点，你就等其他节点同步数据过来好了。

system · 2024 年5 月 25 日 03:44

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。