NebulaGraph 技术社区

Flink connector数据导入过程中，storage replicating log超时且状态异常

Pls 2023 年9 月 6 日 02:29 1

nebula 版本：3.2.1
部署方式：分布式
安装方式：源码编译
是否上生产环境：Y
硬件信息
- 4块8T的SSD盘
- 104C 753G内存
问题的具体描述
通过flink-connector进行数据写入，batch size =100，写入一段时间后graph日志显示RPC超时：

StorageClientBase-inl.h.ext: Request to ip:9779 time out : TTransportException: Timed out
There some RPC errors: RPC failure in storageClient with without :: TTransportException: time out
InsertVerticesExecutor failed, error E_PRC_FAILURE, part 1
InsertVerticesExecutor failed, error E_PRC_FAILURE, part 2
InsertVerticesExecutor failed, error E_PRC_FAILURE, part 3

查询对应的storage日志：

RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001168
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10000230
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001245
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001037
RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001223
…

如上storage日志持续打印7个小时且未恢复正常，节点处于offline状态一直未恢复。

求助：
1、上述情况发生可能存在哪些原因
2、单个节点offline，再提交任务为何还是写入失败，其他2个副本均正常
3、 storeage重启可恢复，任务重新拉起后基本必现，如何优化

George 2023 年9 月 7 日 09:17 2

能否提供storage服务的 crash stack或者日志的fatal log

system 关闭 2023 年10 月 7 日 09:17 3

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。