关于graphd节点莫名重启的问题,求解答!

线上环境发现graphd节点莫名重启,从日志看只有这个内核错误:

Jun 29 11:25:11 nebula1rc kernel: [5240095.481582] graph-netio4[27429]: segfault at 1c ip 0000000001eb0319 sp 00007f3ef4bf4f10 error 4 in nebula-graphd[ece000+1754000]
Jun 29 11:25:11 nebula1rc kernel: [5240095.481588] Code: ff 74 05 e8 f9 18 0d 00 49 8b 9e 88 02 00 00 48 85 db 0f 84 29 01 00 00 4c 8d 7d a0 eb 57 0f 1f 00 49 8b 44 24 10 48 8b 40 20 <83> 78 1c ff 74 39 4c 89 e7 e8 59 f9 ff ff 49 8b 86 a8 00 00 00 48

Nebula版本?

v 3.1.0

你的问题我们想看下是否和 关于nebula-storage配置问题 - #8,来自 jmq2020 这个帖子里的问题类似。
看下logs目录下有没有*.dmp文件,有的话方便传一个上来我们看看?

1 个赞

有生成dmp,用工具解析后的文本格式:

minidump.txt (212.8 KB)

能否直接上传dmp呢? :sweat_smile:

如下:

97956897-2279-4f74-faf766ad-ee9a09bf.dmp (3.5 MB)

@xjc

不好意思这周比较忙没及时回复。这个dump看上去有点像是底层网络的问题,我下周找熟悉这块的人看看。放心,服务挂掉这样的问题我会尽可能跟到底的。
另外,你能看到graphd重启前的查询语句吗?

1 个赞

抱歉,具体语句不好定位,
目前nebula本身也不支持记录吧,我此前还提过这个需求

graphd的日志可以配置v=1,会打印查询语句,不过日志会多不少,你可以试试看,不需要了再改回去。

好的

你的操作系统是啥版本?

CentOS Linux release 7.9.2009 (Core)
5.4.142-1.el7.elrepo.x86_64

查询语句能看到吗?有可能是底层thrift的问题,不太好排查。

没办法定位到具体的查询语句,studio是开放给分析师直接使用的,除非后端能记录查询历史

最近研发定位到一个问题,参考这个帖子,看看是否有关联?

1 个赞

问过相关人员,没有这么写过查询语句,这个帖子也没有反应说会导致graphd宕机吧

你看issue,是会crash的。

1 个赞