-
nebula 版本:3.2.1
-
部署方式:分布式
-
安装方式:源码编译
-
是否上生产环境:Y
-
硬件信息
- 4块8T的SSD盘
- 104C 753G内存
-
问题的具体描述
通过flink-connector进行数据写入,batch size =100,写入一段时间后graph日志显示RPC超时:StorageClientBase-inl.h.ext: Request to ip:9779 time out : TTransportException: Timed out
There some RPC errors: RPC failure in storageClient with without :: TTransportException: time out
InsertVerticesExecutor failed, error E_PRC_FAILURE, part 1
InsertVerticesExecutor failed, error E_PRC_FAILURE, part 2
InsertVerticesExecutor failed, error E_PRC_FAILURE, part 3查询对应的storage日志:
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001168
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10000230
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001245
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001037
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001223
…如上storage日志持续打印7个小时且未恢复正常,节点处于offline状态一直未恢复。
求助:
1、 上述情况发生可能存在哪些原因
2、 单个节点offline,再提交任务为何还是写入失败,其他2个副本均正常
3、 storeage重启可恢复,任务重新拉起后基本必现,如何优化
能否提供storage服务的 crash stack或者日志的fatal log
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。