添加一个storage节点后,执行balance data一直在running状态

  • nebula 版本:3.6.0
  • 问题的具体描述
    因为集群资源告罄,添加了一台机器启动storage服务。add hosts后测试balance data,发现状态不改变
  • 相关的 meta / storage / graph info 日志信息(尽量使用文本形式方便检索)
    新加的这台storage没有日志打印

    可以看到任务已经跑了快二十个小时

只有一台机器做 balance data 吗?
ps:balance data 在社区版是实验性功能

balance data命令是在studio执行的,目前集群四台机器(一台新加入),我理解balance data应该是把部分分片往新机器上迁移。你这里说的只有一台机器做balance data我不是很明白指的是什么。另外之前的三台机器是3meta、3graph、3storage,新机器只有storage,我看配置实验性功能开放的配置是在graph config里,新机器没有graph服务会影响balance data使用吗?

新机器没有graph服务不影响 balance data 使用,但是你的这个任务状态,感觉有些问题。没有具体的迁移信息

可以尝试,先stop再重新提交一个,观察下jobid是不是会变化

stop之后重新提交,job id没变,但是job没有重新启动

我不是很理解。你这个集群是一个节点还是 4 个节点?
如果是 4 个节点,为啥 show job 只有 1 个节点
如果是 1 个节点,为啥会有 data balance

四个,
image

这是个bug,因为是实验性功能。你得重启下所有meta节点再重新提交下。

加入新storage导致的吗?后续再添加新storage也有概率要重启现有meta么?

不是,是balance data命令的bug,因为实验性功能的意思是没有经过完整的系统测试,可能存在一些bug

重启meta后提交任务是新jobid了,但还是一直在running,我重新同步图空间吧,不使用balance data了,感觉不是很可靠

balance data 属于未发布功能