nebula使用br工具备份遇到报错Error: parse cluster response failed: response is not successful, code is E_LIST_CLUSTER_NO_AGENT_FAILURE

cgejian · 2025 年5 月 20 日 10:26

nebula 版本：3.0.0
部署方式：三台机器，每台机器部署meta/graph/storage进程
安装方式：RPM
是否上生产环境：N
问题的具体描述
参考安装 BR - NebulaGraph Database 手册
在每台机器启动0.2.0版本的Agent，然后使用0.6.1版本的br工具备份时，出现报错

Error: parse cluster response failed: response is not successful, code is E_LIST_CLUSTER_NO_AGENT_FAILURE

详细操作步骤

A机器启动agent（–agent指定的ip与配置文件的–local_ip一致）
sudo nohup ./agent-0.2.0-linux-amd64 --agent="A机器ip:8888" --meta="A机器ip:9559" --ratelimit=1073741824 > nebula_agent.log 2>&1 &

B机器启动agent（–agent指定的ip与配置文件的–local_ip一致）
sudo nohup ./agent-0.2.0-linux-amd64 --agent="B机器ip:8888" --meta="A机器ip:9559" --ratelimit=1073741824 > nebula_agent.log 2>&1 &

C机器启动agent（–agent指定的ip与配置文件的–local_ip一致）
sudo nohup ./agent-0.2.0-linux-amd64 --agent="C机器ip:8888" --meta="A机器ip:9559" --ratelimit=1073741824 > nebula_agent.log 2>&1 &

此时连接集群并执行show hosts agent，显示Agent都是ONLINE
0e16a835d89f460f83c3e14236297cf6

然后在A机器上通过br工具开始备份，此时出现报错
./br-0.6.1-linux-amd64 backup full --meta "A机器ip:9559" --storage "local:///data/nebula/backup/"

其他信息

meta服务信息

f49eaaa8015946cfa59aeafca9ebf6d9

storage服务信息（B机器显示offline，不确定是不是这里导致报错）

MuYi-方扬 · 2025 年5 月 21 日 01:27

看下文档检查下？

MuYi-方扬 · 2025 年5 月 21 日 01:28

另外，虽然原理上备份应该是只要备份 leader 就行，但保险起见，建议 storage 服务都起来比较好。

cgejian · 2025 年5 月 22 日 03:15

我新搭了一套集群，没有遇到这个问题了，备份可以成功。但是在恢复到其他集群时遇到了这个报错

操作步骤：
1.A集群备份成功，并将 leader metad 的目录拷贝并覆盖其他 follower meatd 节点的对应目录。

2.B集群（节点数量、拓扑结构与A一致）的每个节点启动Agent
3.A集群执行恢复操作，–meta指定恢复到B集群

 ./br-0.6.1-linux-amd64 restore full --meta "B集群meta ip:9559" --storage "local:///data/nebula/backup/" --name BACKUP_2025_05_20_11_27_45

4.遇到了上述报错

请问这是什么原因，感谢

MuYi-方扬 · 2025 年5 月 22 日 08:59

有没有可能是权限的问题？看起来是访问不到

cgejian · 2025 年5 月 22 日 10:39

都是root用户操作的