生产环境的storaged 最近总是宕机，请大佬们帮忙分析一下

没什么大不了 · 2024 年11 月 13 日 05:42

提问参考模版：

nebula 版本：3.8.0(由3.4.1 替换bin文件升级)
部署方式：分布式
安装方式： RPM
是否上生产环境：Y
硬件信息
- 磁盘 500G
- CPU、内存信息 64G
- 集群规模：5 * graph ,5 * storage ,3 * meta ,
问题的具体描述
相关的 meta / storage / graph info 日志信息（尽量使用文本形式方便检索）

最近生产的机器的storage总是宕机，日志里也没有排查出很关键的信息，其中有几条日志倒是经常出现，请大佬们看看有什么问题

storaged-stderr.log中每次挂掉都会打印这个：

F20241113 09:45:41.991995 69778 IndexVertexScanNode.cpp:106] Bad value for fieldcoordinate
*** Check failure stack trace: ***

nebula-storaged.WARNING中每次挂掉都会有：

W20241113 09:45:41.991945 69778 RowReaderV2.cpp:204] Geography::fromWKB failed: The geography POINT(34.05223 -118.24368) built from wkb _?xA@?s] is invalid, error: Invalid latitude: -118.243680
F20241113 09:45:41.991995 69778 IndexVertexScanNode.cpp:106] Bad value for fieldcoordinate

gdb core文件后这几个是比较常见的

#6  0x00000000012bf013 in nebula::storage::IndexVertexScanNode::decodeFromBase(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&) ()
#7  0x00000000012b462f in nebula::storage::IndexScanNode::doNext() ()
#8  0x00000000012b1b8f in nebula::storage::IndexProjectionNode::doNext() ()
#9  0x00000000012ae6a7 in nebula::storage::IndexLimitNode::doNext() ()

dump文件如下
f19527a4-928e-4db2-cb550f93-cb638d1f.dmp (4.7 MB)
f36edfbc-0a00-4c01-89b4f381-ef840915.dmp (4.7 MB)

MuYi-方扬 · 2024 年11 月 14 日 01:40

宕机的时候是在执行一些比较大的 query 吗？建议整体看下 space 的配置、query 语句

没什么大不了 · 2024 年11 月 20 日 02:09

该现象已反馈到业务人员那里，是由于执行了lookup查询带有错误坐标的语句，导致直接down机

system · 2024 年11 月 27 日 02:09

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。

生产环境的storaged 最近总是宕机，请大佬们帮忙分析一下

storaged-stderr.log中每次挂掉都会打印这个：

nebula-storaged.WARNING中每次挂掉都会有：

gdb core文件后 这几个是比较常见的

gdb core文件后这几个是比较常见的