-
- nebula 版本:3.6.0
- 部署方式:分布式
- 安装方式:TAR包安装
- 是否上生产环境:Y
- 硬件信息
- 存储:1.2T(非SSD)
- CPU:16C
- 内存:64G
- 数量:6台
- 问题的具体描述
目前运行大量的查询,qps大概在8k-1w左右,有一台机器的nebula-graphd服务挂了,重启服务后,发现nebula-graphd进程的cpu使用率很低,看起来像是不均衡,但是执行balance leader过后还是没有,需要重启所有机器(6台)的graphd服务后,graphd服务的cpu使用率才恢复到正常水平值,想问下这个有什么解决办法吗?
graphd 的轮询应该是在 session 那边分配的。估计是链接到 挂了的graphd 的session 失效导致;
balance leader 是对底层的数据的 raft leader 做调整,影响的是 storaged 等负载,和 graphd没什么关系
我们维护了一套session池,失效的session会丢弃重建,但是我等了很久那台机器的graphd服务cpu使用率也还没上来
那有没有平衡session的命令呢?
session 的选择应该是在客户端做的吧?
是的,但是我尝试把数据库的所有session kill掉之后,挂掉的那台机器的graphd服务cpu使用率还是上不来,看现象应该是没有创建连接到那台机器的session,我们客户端是会重建的
这里估计要看下客户端的实现了。