集群挂了一个节点,job失败

  • nebula 版本:3.4.0
  • 部署方式:nebula-operator
  • 安装方式:Docker


    模拟单节点故障,手动下线nebula-0,然后执行job。job会失败。0被分配到了任务导致失败。

请问这个问题如何解决?有节点故障的情况下,只有执行SUBMIT JOB STATS这一个能成功,其他job都会失败

image
挂掉的第一天stats这个还能成功,现在执行也会失败了

期望行为什么?外部重试还是内部重试?

期望是高可用,一个节点故障后,job还是能执行成功

还是外部重试吧。毕竟。。需求提了也做不过来了。。。。

可是现在是已经挂掉的情况下,job也执行不成功呢,这个问题看一下?不是执行job的时候节点故障不成功,是故障后再执行job不成功

哦哦sorry

我记得这个问题好像修复过吧 ?@Sophie

没这个印象。请看下呢。@critical27

这个问题看的咋样了,怎么在一个节点故障的时候去执行job能成功?

请问这个问题能帮忙看一下吗?现在是图空间创建的时候指定三副本。故障一个节点后去执行job,stats这个job是能成功的,balance leader也能成功,其他job不会成功,是其他的不支持吗?

你可以show job id看下子任务的状态,有些job需要在所有hosts上执行,一个fail了也就failed了。

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。