- nebula 版本:3.4.0/3.2.1
- 部署方式:k8s
- 安装方式: Docker
- 是否上生产环境:Y
storage/meta均为3副本,storage宕机重启后,部分partition的wal文件过期不删除,wal_ttl设置为1小时,show parts显示partition均正常
比如下面的3,5,16 partition wal均没有删除,重启storage进程10分钟后过期wal会自动删除。
这几个partition(以partition 16为例)下面只有2.1-2.5的wal文件
查看进程持有的partition 16 wal对应的文件描述符为:
0000000000173570954.wal在partition 16的wal目录下都不存在,而且根据wal命名规则,0000000000173570954.wal比现存没删除的wal晚生成
wal相关的文件描述符数量是正常的,90个partition,sudo -u nebula ls -l /proc/336248/fd/ | grep -E “.wal” |wc -l 为90
这个现象在3.2.1和3.4.0版本均出现过,可以帮忙看下是什么原因吗,感觉clean wal没有正常执行,进程持有的wal文件描述符不存在partition还显示状态正常感觉不合理。

