nebula graph查询、插入数据时候报错

gkexcellent · 2021 年9 月 5 日 05:46

v2.5.0

nebula graph查询，插入时，会报错RPC错误，设置time-out参数不管用
报错信息如下：
Heartbeat failed, status:RPC failure in MetaClient: N6apache6thrift9transport19TTransportExceptionE: AsyncSocketException: connect failed, type = Socket not open, errno = 111 (Connection refused): Connection refused
之前meta端口9559，后来修改成39559，同样报错，下面是端口情况

建议给出问题定位原因

critical27 · 2021 年9 月 6 日 06:42

从meta机器再看下netstat?另外确认下graph/storage/meta配置里的meta服务ip/port都对上了

gkexcellent · 2021 年9 月 6 日 06:49

graph/storage/meta配置里的meta服务ip/port都对上了
这个问题不间断的存在，有时候重启之后就好了，有时候等一会不操作就好了

critical27 · 2021 年9 月 6 日 06:52

有几个graph？有个地方有点诡异两张图里的graph链接都只有1个且端口对不上

gkexcellent · 2021 年9 月 6 日 06:54

只有一个graphd，之前那张图是前几天的，担心端口被占用，所以把端口改了39559，重启了又观察了下，还出现了这个问题

critical27 · 2021 年9 月 6 日 07:11

用的是console插入还是其他client，有没有可能连到了其他graph

gkexcellent · 2021 年9 月 6 日 07:12

console,studio,客户端插入都有，只有一个graph进程

critical27 · 2021 年9 月 6 日 07:21

”这个问题不间断的存在，有时候重启之后就好了，有时候等一会不操作就好了“

我怀疑是因为这个描述看起来有点像连错了graph

确认几个地方:

graph机器和meta机器的netstat互相对得上，如果有必要ss -nt也看看
看下graph日志里面有没有刷1楼里说的报错日志

gkexcellent · 2021 年9 月 6 日 07:27

ss -nt的结果，

gkexcellent · 2021 年9 月 10 日 06:56

补充一下，没有连错graph，只有一个graph进程
错误日志内容只有 “Heartbeat failed, status:RPC failure in MetaClient: N6apache6thrift9transport19TTransportExceptionE: AsyncSocketException: connect failed, type = Socket not open, errno = 111 (Connection refused): Connection refused”
另外有core文件在nebula目录下生成，core信息如下
[Thread debugging using libthread_db enabled]
Using host libthread_db library “/lib64/libthread_db.so.1”.
Core was generated by `/usr/local/nebula/bin/nebula-graphd --flagfile /usr/local/nebula/etc/nebula-gra’.
Program terminated with signal 6, Aborted.
#0 0x00007fda09c83387 in raise () from /lib64/libc.so.6
Missing separate debuginfos, use: debuginfo-install nebula-graph-2.5.0-1.x86_64
(gdb) b
Breakpoint 1 at 0x7fda09c83387
(gdb) bt
#0 0x00007fda09c83387 in raise () from /lib64/libc.so.6
#1 0x00007fda09c84a78 in abort () from /lib64/libc.so.6
#2 0x0000000001d03e9d in google::LogMessage::Fail() ()
#3 0x0000000001d08c7e in google::LogMessage::SendToLog() ()
#4 0x0000000001d03b6e in google::LogMessage::Flush() ()
#5 0x0000000001d043c9 in google::LogMessageFatal::~LogMessageFatal() ()
#6 0x0000000001a6e175 in apache::thrift::ThriftServer::stopAcceptingAndJoinOutstandingRequests() ()
#7 0x0000000001a6ed6b in apache::thrift::ThriftServer::stopListening() ()
#8 0x0000000001a6e9b7 in apache::thrift::ThriftServer::cleanUp() ()
#9 0x0000000001a73ef3 in apache::thrift::ThriftServer::serve() ()
#10 0x0000000000dbc7ad in main ()

观察发现，timeout时候 storage和graph之间的连接断开了
timeout时情况：

正常情况：

请问这种断开连接是什么原因呢？

critical27 · 2021 年9 月 14 日 05:00

这个报错我前两天遇到了当时是防火墙的问题你排查下网络环境

system · 2021 年10 月 14 日 05:00

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。