添加一个storage节点后，执行balance data一直在running状态

wzw · 2025 年2 月 11 日 02:35

nebula 版本：3.6.0
问题的具体描述
因为集群资源告罄，添加了一台机器启动storage服务。add hosts后测试balance data，发现状态不改变
相关的 meta / storage / graph info 日志信息（尽量使用文本形式方便检索）
新加的这台storage没有日志打印

image1080×611 25 KB

可以看到任务已经跑了快二十个小时

MuYi-方扬 · 2025 年2 月 11 日 06:39

只有一台机器做 balance data 吗？
ps：balance data 在社区版是实验性功能

wzw · 2025 年2 月 11 日 07:35

balance data命令是在studio执行的，目前集群四台机器（一台新加入），我理解balance data应该是把部分分片往新机器上迁移。你这里说的只有一台机器做balance data我不是很明白指的是什么。另外之前的三台机器是3meta、3graph、3storage，新机器只有storage,我看配置实验性功能开放的配置是在graph config里，新机器没有graph服务会影响balance data使用吗？

QingYan · 2025 年2 月 11 日 08:45

新机器没有graph服务不影响 balance data 使用，但是你的这个任务状态，感觉有些问题。没有具体的迁移信息

QingYan · 2025 年2 月 11 日 08:46

可以尝试，先stop再重新提交一个，观察下jobid是不是会变化

wzw · 2025 年2 月 12 日 01:48

stop之后重新提交，job id没变，但是job没有重新启动

MuYi-方扬 · 2025 年2 月 12 日 02:19

我不是很理解。你这个集群是一个节点还是 4 个节点？
如果是 4 个节点，为啥 show job 只有 1 个节点
如果是 1 个节点，为啥会有 data balance

wzw · 2025 年2 月 12 日 02:41

四个，

QingYan · 2025 年2 月 12 日 02:45

这是个bug，因为是实验性功能。你得重启下所有meta节点再重新提交下。

wzw · 2025 年2 月 12 日 02:46

加入新storage导致的吗？后续再添加新storage也有概率要重启现有meta么？

QingYan · 2025 年2 月 12 日 02:50

不是，是balance data命令的bug，因为实验性功能的意思是没有经过完整的系统测试，可能存在一些bug

wzw · 2025 年2 月 12 日 08:29

重启meta后提交任务是新jobid了，但还是一直在running，我重新同步图空间吧，不使用balance data了，感觉不是很可靠

MuYi-方扬 · 2025 年2 月 20 日 11:49

balance data 属于未发布功能

system · 2025 年3 月 22 日 11:49

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。