- nebula 版本:3.4.0
- 部署方式:nebula-operator
- 安装方式:Docker
模拟单节点故障,手动下线nebula-0,然后执行job。job会失败。0被分配到了任务导致失败。
请问这个问题如何解决?有节点故障的情况下,只有执行SUBMIT JOB STATS这一个能成功,其他job都会失败
挂掉的第一天stats这个还能成功,现在执行也会失败了
期望行为什么?外部重试还是内部重试?
期望是高可用,一个节点故障后,job还是能执行成功
还是外部重试吧。毕竟。。需求提了也做不过来了。。。。
可是现在是已经挂掉的情况下,job也执行不成功呢,这个问题看一下?不是执行job的时候节点故障不成功,是故障后再执行job不成功
这个问题看的咋样了,怎么在一个节点故障的时候去执行job能成功?
请问这个问题能帮忙看一下吗?现在是图空间创建的时候指定三副本。故障一个节点后去执行job,stats这个job是能成功的,balance leader也能成功,其他job不会成功,是其他的不支持吗?
你可以show job id看下子任务的状态,有些job需要在所有hosts上执行,一个fail了也就failed了。
此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。