查询数据失败概率太高，fetch prop on

hangjianglaoweng · 2021 年1 月 25 日 02:55

提问参考模版：

nebula 版本：1.2
部署方式（分布式 / 单机 / Docker / DBaaS）：分布式
硬件信息
- 磁盘（推荐使用 SSD）
- CPU、内存信息：
出问题的 Space 的创建方式：

image1088×176 51.8 KB
问题的具体描述
查询数据失败概率太高了，6次才成功一次：

image810×986 157 KB

bright-starry-sky · 2021 年1 月 25 日 03:19

你好，storage的log里是什么错误信息？

hangjianglaoweng · 2021 年1 月 25 日 03:25

log在那个目录下？

jievince · 2021 年1 月 25 日 03:31

你的安装目录，一般是/usr/local/nebula里的 logs目录
把nebula-storaged.INFO贴出来

hangjianglaoweng · 2021 年1 月 25 日 03:32

storaged日志没有报错，
graphd日志：

 E0125 11:29:29.361738 84304 StorageClient.inl:123] Request to [10.196.97.10:44500] failed: N6apache6thrift9transport19TTransportExceptionE: Channel got EOF. Check for server hitting connection limit, server connection idle timeout, and server crashes.
    E0125 11:29:29.361953 84392 ExecutionPlan.cpp:80] Execute failed: Get tag props failed
    E0125 11:29:30.278616 84392 ExecutionPlan.cpp:80] Execute failed: Get tag props failed
    E0125 11:29:32.706200 84308 StorageClient.inl:123] Request to [10.196.97.10:44500] failed: N6apache6thrift9transport19TTransportExceptionE: Channel got EOF. Check for server hitting connection limit, server connection idle timeout, and server crashes.
    E0125 11:29:32.706426 84392 ExecutionPlan.cpp:80] Execute failed: Get tag props failed
    E0125 11:29:34.429270 84394 ExecutionPlan.cpp:80] Execute failed: Get tag props failed

jievince · 2021 年1 月 25 日 03:34

server已经crash掉了？你执行scripts/nebula.service status all看下服务状态。

hangjianglaoweng · 2021 年1 月 25 日 03:36

没有crash，集群20台集群，每台的storage和graph都是running:
[INFO] nebula-graphd: Running as 30621, Listening on 3699
[INFO] nebula-storaged: Running as 116208, Listening on 44500

min.wu · 2021 年1 月 25 日 03:41

提供下硬件情况。一般硬件没填的用户大概率是不满足nebula要求的运行硬件，想强上的。
show hosts。大概率分布不均匀。

hangjianglaoweng · 2021 年1 月 25 日 03:45

min.wu · 2021 年1 月 25 日 03:58

我没法看出来是HDD还是SSD。
lsblk -d看下。

你安装nebula在哪个硬盘上？/ 下面？

hangjianglaoweng · 2021 年1 月 25 日 03:59

HDD

min.wu · 2021 年1 月 25 日 04:04

HDD关键词你可以在论坛搜索下。

hangjianglaoweng · 2021 年1 月 25 日 04:19

好的，我们准备换成ssd的试一下

min.wu · 2021 年1 月 25 日 05:11

行。

一般常见的debug 前置流程：
0. 检查硬件是否满足要求；检查配置是否正常

检查进程是否正常；
检查partition是否分布正常；
先贴下client和graphd的日志。

1.2 跑过的厂商已经相当多了，大规模场景也都在用。性能和使用问题通常原因是前置流程不满足。低级问题不太会。