Flink connector数据导入过程中,storage replicating log超时且状态异常

  • nebula 版本:3.2.1

  • 部署方式:分布式

  • 安装方式:源码编译

  • 是否上生产环境:Y

  • 硬件信息

    • 4块8T的SSD盘
    • 104C 753G内存
  • 问题的具体描述
    通过flink-connector进行数据写入,batch size =100,写入一段时间后graph日志显示RPC超时:

    StorageClientBase-inl.h.ext: Request to ip:9779 time out : TTransportException: Timed out
    There some RPC errors: RPC failure in storageClient with without :: TTransportException: time out
    InsertVerticesExecutor failed, error E_PRC_FAILURE, part 1
    InsertVerticesExecutor failed, error E_PRC_FAILURE, part 2
    InsertVerticesExecutor failed, error E_PRC_FAILURE, part 3

    查询对应的storage日志:

    RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001168
    RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10000230
    RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001245
    RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001037
    RaftPart.cpp:1033 Replicating log timed out : replicateLogLatencyUs 10001223

    如上storage日志持续打印7个小时且未恢复正常,节点处于offline状态一直未恢复。

    求助:
    1、 上述情况发生可能存在哪些原因
    2、 单个节点offline,再提交任务为何还是写入失败,其他2个副本均正常
    3、 storeage重启可恢复,任务重新拉起后基本必现,如何优化

能否提供storage服务的 crash stack或者日志的fatal log

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。