Nebuladashboard有部分监控指标不正常

graph_jack · 2023 年11 月 6 日 02:15

提问参考模版：

1.memory used在持续缓慢的增长（无使用时）。

2.load avrage存在间断性的大波动，在网上搜索了一下，都说该指标需要监控持续的情况，目前看，这个持续的压力情况是存在的，但是当前我们的集群是没有人在使用的，怎么负载也会这么高呢？

QingA · 2023 年11 月 9 日 06:28

是否之前大批量写入了测试数据，在做自动compact

graph_jack · 2023 年11 月 9 日 11:05

我手动执行过compact,执行完也是这样

QingA · 2023 年11 月 10 日 02:22

我帮你手动艾特大佬 @wey 猴头保命

wangdawai · 2023 年11 月 10 日 06:01

这地方包括的buffer占用的内存，看actual那个指标。

steam · 2023 年11 月 10 日 06:03

对，有个新整理的内存相关的帖子，你可以看看：内存使用持续增加的原因

graph_jack · 2023 年11 月 10 日 06:53

3.1.0版本的dashboard没有您说的那个指标，我安装的3.6.0的版本里才有

graph_jack · 2023 年11 月 10 日 06:54

这个在正在研究，感谢大佬

steam · 2023 年11 月 10 日 07:06

有啥研究成果记得来交流下

graph_jack · 2023 年11 月 13 日 08:39

使用jemalloc分析nebula-storage的内存占用情况如下，请问这是什么情况？

pdf如下

steam · 2023 年11 月 14 日 02:40

这里显示了 storage 的内存占用并不是很高，0.1 MB。系统如果内存占用高的话，不一定是 nebula 导致的，你可以用 free -h 看下具体的内存使用情况。

graph_jack · 2023 年11 月 14 日 03:02

这个会不会和我获取内存文件的命令有关系呢？因为实际在dashboard里看到的内存是在持续增长的，我们自己用top命令监控了nebula-storaged的进程的内存使用情况，也是在持续增长的
我生成文件的命令如下：

得到的jeprof.heap之后

通过jeprof --pdf /igs/nebula/bin/nebula-storaged jeprof.heap得到的pdf文件结果

steam · 2023 年11 月 14 日 03:06

就是你看这个进程占用的资源只是 0.1 MB，不算高的，你看我上面的命令，你先用 free -h 看下内存的分布

graph_jack · 2023 年11 月 14 日 03:30

查到的结果如下，但是这个结果跟dashboard上监控到的结果还不一致。。。。
dashboard上监控到的这个时间点的内存是6.7G左右

我看cached占用量比较大，就手动回收了一下，内存占用情况如下

MuYi-方扬 · 2023 年11 月 14 日 05:53

话说你这个节点部署了什么服务？
是否还有其他的内存开销的进程？Dashboard这里的监控是针对节点的监控

xigongdaEricyang · 2023 年11 月 14 日 05:59

memory_used 这个指标，是包括了buffer和cache的，实际使用对不上吗？要不你直接查promeheus看下监控数据是否正确？

graph_jack · 2023 年11 月 14 日 06:03

部署nebulagraph的三个服务节点和监控服务，目前监控看到是storaged在持续增长

graph_jack · 2023 年11 月 14 日 06:32

promethous里没找到memory_used这个指标呢，是叫其他的名字么

xigongdaEricyang · 2023 年11 月 14 日 07:41

memory_used = node_memory_MemTotal_bytes{instanceName=“your instance”} - node_memory_MemAvailable_bytes{instanceName=“your instance”}

graph_jack · 2023 年11 月 14 日 07:56

promethous里按您发的那个没有找到结果