kernel: [9905798.894946] executor-pri3-4[58062]: segfault at 209 ip 0000000001067031 sp 00007f71ee7f5060 error 4 in nebula-graphd[ece000+1754000] nebula graph 老挂掉,但是检查nebula的日志没有报错信息,这是系统的报错信息,可以看到什么有用的吗
没有,有core file吗,自己gdb看看。如果没有堆栈信息,而这个问题又很经常触发的话,你直接attach运行中的graphd,出问题了打印堆栈信息然后退出重启,再仔细看看堆栈有啥信息。
这两天观察,发现nebula graph使用的virt虚拟内存一直在增长,到240G后,nebula graph就停止了。这个能通过修改什么参数去调整一下吗
virt虚拟内存增长的时候,是有做什么查询之类的操作吗?
肯定有查询的,程序的查询一直在进行。
你执行的语句是什么
就你上面给我的语句啊
我的意思是你执行的 nebula的语句是什么
就程序正常跑的查询语句,有好多呢。都是一些常规查询,这个跟语句有关系吗
发生内存越界访问了,如果能够定位到某个语句,排查起来会快很多
但是为啥都是虚拟内存增长到240G后,才会发生,还是因为这个语句才导致的虚拟内存增长?
graph 挂掉的时候 有coredump 文件吗
有的 除了core文件没有别的方法可以定位了是吗
core文件保存了当时的运行环境,可以最快的定位问题
能稳定复现吗,直接attach进去看看 log里面,机器挂掉附近时间点的语句是什么,比如parsing xxx啥的
稳定复现可以做到 等virt 到240+ 自己就挂了。感觉就是虚拟内存不释放的问题。