生产环境的storaged 最近总是宕机,请大佬们帮忙分析一下

提问参考模版:

  • nebula 版本:3.8.0(由3.4.1 替换bin文件升级)
  • 部署方式:分布式
  • 安装方式: RPM
  • 是否上生产环境:Y
  • 硬件信息
    • 磁盘 500G
    • CPU、内存信息 64G
    • 集群规模:5 * graph ,5 * storage ,3 * meta ,
  • 问题的具体描述
  • 相关的 meta / storage / graph info 日志信息(尽量使用文本形式方便检索)

最近生产的机器的storage总是宕机,日志里也没有排查出很关键的信息,其中有几条日志倒是经常出现,请大佬们看看有什么问题

storaged-stderr.log中每次挂掉都会打印这个:

F20241113 09:45:41.991995 69778 IndexVertexScanNode.cpp:106] Bad value for fieldcoordinate
*** Check failure stack trace: ***

nebula-storaged.WARNING中每次挂掉都会有:

W20241113 09:45:41.991945 69778 RowReaderV2.cpp:204] Geography::fromWKB failed: The geography POINT(34.05223 -118.24368) built from wkb _?xA@?s] is invalid, error: Invalid latitude: -118.243680
F20241113 09:45:41.991995 69778 IndexVertexScanNode.cpp:106] Bad value for fieldcoordinate

gdb core文件后 这几个是比较常见的

#6  0x00000000012bf013 in nebula::storage::IndexVertexScanNode::decodeFromBase(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&) ()
#7  0x00000000012b462f in nebula::storage::IndexScanNode::doNext() ()
#8  0x00000000012b1b8f in nebula::storage::IndexProjectionNode::doNext() ()
#9  0x00000000012ae6a7 in nebula::storage::IndexLimitNode::doNext() ()

dump文件如下
f19527a4-928e-4db2-cb550f93-cb638d1f.dmp (4.7 MB)
f36edfbc-0a00-4c01-89b4f381-ef840915.dmp (4.7 MB)

宕机的时候是在执行一些比较大的 query 吗?建议整体看下 space 的配置、query 语句

该现象已反馈到业务人员那里,是由于执行了lookup查询带有错误坐标的语句,导致直接down机

1 个赞