nebula服务重启后,连接或者获取数据发生超时

  • nebula 版本:v1.2.0
  • 部署方式(分布式 / 单机 / Docker / DBaaS):分布式docker-swarm部署
  • 是否为线上版本 Y
  • 硬件信息
    • 磁盘( 推荐使用 SSD)500G
    • CPU、内存信息 24C48G
  • 问题的具体描述
    生产环境重启了服务器机器以及图库服务,docker swarm正常启动,无异常。但发现使用studio连接nebula时会经常卡顿超时,有时报504 gateaway 超时错误; 然后重启过几遍情况依旧,有时会连查一个点的数据都显示不存在。当前可查到点数据,但探寻点路径的操作就会直接卡顿,尤其是接口探寻多度数据的情况无数据返回。另外leader分片异常(没有均衡分布,有机器上是0) leader数据会一直在变化 副本数据正常

leader选举是随机的,分布不正常很正常,需要你重新balance leader

我当时执行过这个命令 没什么响应。现在我的问题是图库用不了 卡顿的问题呢

看一下storage的log

storaged日志:

metad:

graphd:

@critical27 看看呢

麻烦大佬可以尽快cc :bowing_man:

hello

graph或者storage挂了?

没有挂 正常启动了

那就只是query涉及的数据多 所以慢。另外可以把raft_heartbeat_interval_secs这个改大点。

但服务仅做了重启,数据未有增量更新(重启前不存在这种情况);而且不只是query的时候,有时直接用studio连接的操作也会超时。

刚刚又重启一次,突然问题都解决了,分片也正常了 :disappointed_relieved:
:no_mouth:后续可以跟进下集群重启异常的问题(之前重启试过有部分storaged服务起不来,过段时间重启又都解决)

1 个赞