关于nebula-storage配置问题

sworduo · 2022 年6 月 23 日 06:23

能稳定复现吗，直接attach进去看看 log里面，机器挂掉附近时间点的语句是什么，比如parsing xxx啥的

user5 · 2022 年6 月 23 日 06:28

稳定复现可以做到等virt 到240+ 自己就挂了。感觉就是虚拟内存不释放的问题。

user5 · 2022 年6 月 23 日 06:31

这个现在已经快120了。到240+就可以出现

user5 · 2022 年6 月 23 日 07:43

附近没有什么日志信息的，看过好几次了，感觉就是虚拟内存的增加引起的，这个是哪里可以调整控制吗

user5 · 2022 年6 月 23 日 10:42

别忘了我啊

spw · 2022 年6 月 24 日 02:49

这是一直在跑各种语句吗？

user5 · 2022 年6 月 24 日 02:50

是的就是按正常的线上应用再跑

user5 · 2022 年6 月 24 日 03:03

晚上没任务跑的时候就没事，白天上班了就不行了

user5 · 2022 年6 月 27 日 02:59

还搭理我吗

steam · 2022 年6 月 27 日 05:50

稍等片刻哈

wenhaocs · 2022 年6 月 27 日 17:33

关于最开始的问题，block cache降到了4M，是会显著降低性能的。按照工业界经验，可以将block cache设置成2/3内存大小。可否试验一下，将block cache设置成2/3内存大小后，是否出现上述core dump问题。

user5 · 2022 年6 月 28 日 02:36

block cache 已经调整为100G，现在主要是nebula graph宕机。

wenhaocs · 2022 年6 月 28 日 03:12

240G附近，graphd和storage分别占用的virt和res是多少呢？

user5 · 2022 年6 月 28 日 03:40

由于现在流量降低了，所以不太容易复现那种情况，目前三台服务器情况如上，给人的感觉就是nebula graph使用的内存一直在增长而没有释放的过程。有没有什么方案可以实现nebula graph内存释放

user5 · 2022 年6 月 28 日 09:52

executor-pri3-4[162595]: segfault at 18 ip 0000000001067031 sp 00007f6885cf4060 error 4 in nebula-graphd[ece000+1754000] 这是系统的报错。内存越界，nebula-graph放到最大的日志记录，ERROR和WARRING也没有有用信息。INFO每次的信息都不一样。

user5 · 2022 年6 月 29 日 03:16

69def2bb-a164-4256-4ce1ff8f-6fc0397f.dmp (5.1 MB)
这是崩溃时产生的dmp文件，但是看不懂啥意思，能帮忙看下吗

xjc · 2022 年6 月 29 日 15:48

这个是breakpad的mini dump，我处理了一下：

@jmq2020 帮忙看下有没有问题？

jmq2020 · 2022 年6 月 30 日 03:39

最好可以把 graph 挂掉的时候执行的ngql语句发一下，看了@xjc 发的堆栈信息不是很完整

user5 · 2022 年6 月 30 日 06:30

jmq2020 · 2022 年7 月 1 日 02:41

语句没问题，时间长了 graph 挂掉，能否确定一下当时的内存情况，是内存满了被系统挂掉还是内存正常，graph挂掉了