storaged服务崩溃:有一部分ssd满了

  • nebula 版本:(3.1.0)
  • 部署方式: 分布式
  • 安装方式:RPM
  • 是否上生产环境:Y
  • 硬件信息
    • 硬盘:共5台服务器,每台服务器上有12块890G的SSD,共60个SSD,如图

image
- 内存:每台服务器250G内存,5台共1250G
- nebula安装目录:每台机器都安装在/data/disk12/下,占用空间约373G
-服务部署情况:

第 1 列 第 2 列
机器编号 安装的服务
1 metad,graphd,storaged
2 metad,graphd,storaged
3 matad,graphd,storaged
4 graphd,storaged
5 graphd,storaged
  • 问题的具体描述: 机器3和机器5的storaged服务崩溃,查询硬盘占用空间,发现机器3和机器5有SSD已经使用100%

已经排除了core文件和log日志的原因,因为core和log都会生成在disk12目录下,我已经设置了定时删除core文件的任务

我尝试运行BALANCE LEADER,会失败


show parts 会发现每台机器都是48个partition
image

balance leader和这个没有太大关系,需要 balance data

是的,但是社区版应该是不支持balance data的

我打算过年以后把分区数调整到1200个 ,也就是ssd的数量乘20,这样数据倾斜的情况应该能缓解