Stats Job如何取消

fengliang · 2021 年5 月 13 日 04:02

Nebula 版本 v2.0.1

我使用submit job stats 命令提交了一个stats job, job运行期间有节点宕机的情况，集群恢复后job状态一直是RUNNING，这个job应该如何取消

Aiee · 2021 年5 月 13 日 05:54

fengliang · 2021 年5 月 13 日 06:39

好的感谢

Aiee · 2021 年5 月 13 日 06:40

不客气

fengliang · 2021 年5 月 13 日 09:20

我遇到了新的问题，submit job stats之后job直接失败，且没有看到错误日志，我能从哪些方向排查一下呢？我尝试了换space和提交rebuild index任务也是同样的现象

fengliang · 2021 年5 月 13 日 09:46

我在metad服务日志里找到了报错内容。看样子是没有获取到leader的host，这种情况能修复吗？

Aiee · 2021 年5 月 13 日 09:49

服务都正常运行吗？console中执行下show hosts 在nebula安装目录下执行下 ./scripts/nebula.service status all

fengliang · 2021 年5 月 13 日 09:55

show hosts正常

status all也正常

之前执行submit job stats后有几台storaged挂了，重启之后就出现现在这种情况了

Aiee · 2021 年5 月 13 日 10:02

你之前有手动删过storage下的data目录吗？

fengliang · 2021 年5 月 13 日 10:04

没删过，有一台storaged 执行stop后进程还在，status all显示已退出，后来我kill -9了我估计是这里出了问题

fengliang · 2021 年5 月 13 日 10:09

这台的storaged日志里有些错误日志

Aiee · 2021 年5 月 13 日 10:12

其他语句也会失败吗？
你先./scripts/nebula.service stop all 然后确认下进程是否都已退出，没退出手动kill下
然后在安装目录rm -rf pids cluster.id
再重新启动服务试一下

fengliang · 2021 年5 月 13 日 10:20

我试了SUBMIT JOB COMPACT 和 SUBMIT JOB Flush是没问题的，SUBMIT JOB STATS和rebuild index都会直接失败，我按照你的步骤操作了一下，还是不行刚执行就失败了

fengliang · 2021 年5 月 13 日 10:23

看metad日志是找不到统计数据了

fengliang · 2021 年5 月 13 日 10:35

storaged日志一直在报这个错误，数据是不是彻底坏了？

pandasheeps · 2021 年5 月 14 日 09:06

因为compact 和flush 发往该space parts的所有机器，比如part的leader机器和follower机器。
stats 和rebuild 仅仅发往该space parts对应的leader机器。