Studio导入大文件速度越来越慢

nebula 版本:3.4.1
部署方式:单机
安装方式: tar.gz
是否上生产环境:Y
硬件信息
磁盘( 推荐使用 SSD): 阿里云ESSD云盘 PL1
CPU、内存信息:16核(vCPU) 128 GiB

问题的具体描述

发现一个奇怪的现象,studio在导入csv时刚开始会很快(7w/s),然后越到最后越慢(1~2w/s)

导入配置示例:

version: v2
description: web console import
removeTempFiles: null
clientSettings:
  retry: 3
  concurrency: 10
  channelBufferSize: 128
  space: space_name
  connection:
    user: "userName"
    password: "userPassword"
    address: "ip:9669"
  postStart: null
  preStop: null
logPath: import.log
workingDir: null
files:
- path: edge.csv
  failDataPath: edge..csv
  batchSize: 2000
  limit: null
  inOrder: null
  type: csv
  csv:
    withHeader: false
    withLabel: false
    delimiter: null
  schema:
    type: edge
    edge:
      name: transfer
      withRanking: null
      props:
      - name: id
        type: string
        index: 0
      - name: from_id
        type: string
        index: 1
      - name: to_id
        type: string
        index: 2
      - name: no
        type: int
        index: 4
      - name: currency
        type: string
        index: 5
      - name: currency_name
        type: string
        index: 6
      - name: quantity
        type: string
        index: 8
      - name: type
        type: string
        index: 10
      - name: sort_id
        type: int
        index: 12
      - name: transfer_time
        type: int
        index: 13
      - name: transfer_type
        type: string
        index: 14
      srcVID:
        index: 15
        function: null
        type: string
        prefix: null
      dstVID:
        index: 16
        function: null
        type: string
        prefix: null
      rank:
        index: 17
    vertex: null

需要解决的问题

  1. 无索引,服务器除了导入啥也没干
  2. 20~30G左右CSV边导入速度半小时就是从7w/s降2w/s, 还有一个大文件是120G已经不敢执行了

请问是否有具体配置可以优化导入速度,或者不要降低导入速度的;

补充问题

  1. 怎么理解数据倾斜导致的导入速率降低
  2. 导入CSV在exchange和importer的对比情况是怎样的

更新

  • 58分钟后,任务速率已经降到1.6w/s:
    [INFO] statsmgr.go:89: Tick: Time(3520.00s), Finished(57214000), Failed(0), Read Failed(0), Latency AVG(1222587us), Batches Req AVG(1224532us), Rows AVG(16253.98/s)
  1. 你是从哪里导的数据?本地吗?
  2. 这个faildatapath路径应该写错了。注意这里是指失败的数据写入到的地址,和源数据不是一个文件
    image
  1. studio本地uploads
  2. 这目录手动脱敏写错了

你是多个文件还是单个文件?

单文件,但是两个文件一起传也会有这个越传越慢的情况

可以看看下面这篇文章:

我怀疑是compaction线程不太够

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。