graphd服务挂掉,重启后未平衡

    • nebula 版本:3.6.0
    • 部署方式:分布式
    • 安装方式:TAR包安装
    • 是否上生产环境:Y
    • 硬件信息
      • 存储:1.2T(非SSD)
      • CPU:16C
      • 内存:64G
      • 数量:6台
    • 问题的具体描述
      目前运行大量的查询,qps大概在8k-1w左右,有一台机器的nebula-graphd服务挂了,重启服务后,发现nebula-graphd进程的cpu使用率很低,看起来像是不均衡,但是执行balance leader过后还是没有,需要重启所有机器(6台)的graphd服务后,graphd服务的cpu使用率才恢复到正常水平值,想问下这个有什么解决办法吗?

graphd 的轮询应该是在 session 那边分配的。估计是链接到 挂了的graphd 的session 失效导致;
balance leader 是对底层的数据的 raft leader 做调整,影响的是 storaged 等负载,和 graphd没什么关系

我们维护了一套session池,失效的session会丢弃重建,但是我等了很久那台机器的graphd服务cpu使用率也还没上来

那有没有平衡session的命令呢?

session 的选择应该是在客户端做的吧?

是的,但是我尝试把数据库的所有session kill掉之后,挂掉的那台机器的graphd服务cpu使用率还是上不来,看现象应该是没有创建连接到那台机器的session,我们客户端是会重建的

这里估计要看下客户端的实现了。