- nebula 版本:(3.1.0)
- 部署方式: 分布式
- 安装方式:RPM
- 是否上生产环境:Y
- 硬件信息
- 硬盘:共5台服务器,每台服务器上有12块890G的SSD,共60个SSD,如图
- 内存:每台服务器250G内存,5台共1250G
- nebula安装目录:每台机器都安装在/data/disk12/下,占用空间约373G
-服务部署情况:
第 1 列 | 第 2 列 |
---|---|
机器编号 | 安装的服务 |
1 | metad,graphd,storaged |
2 | metad,graphd,storaged |
3 | matad,graphd,storaged |
4 | graphd,storaged |
5 | graphd,storaged |
- 问题的具体描述: 机器3和机器5的storaged服务崩溃,查询硬盘占用空间,发现机器3和机器5有SSD已经使用100%
已经排除了core文件和log日志的原因,因为core和log都会生成在disk12目录下,我已经设置了定时删除core文件的任务
- 相关的 meta / storage / graph info 日志信息
机器3的日志
我尝试运行BALANCE LEADER,会失败
show parts 会发现每台机器都是48个partition
