nebula 版本:3.4.1
部署方式:单机
安装方式: tar.gz
是否上生产环境:Y
硬件信息
磁盘( 推荐使用 SSD): 阿里云ESSD云盘 PL1
CPU、内存信息:16核(vCPU) 128 GiB
问题的具体描述
发现一个奇怪的现象,studio在导入csv时刚开始会很快(7w/s),然后越到最后越慢(1~2w/s)
导入配置示例:
version: v2
description: web console import
removeTempFiles: null
clientSettings:
retry: 3
concurrency: 10
channelBufferSize: 128
space: space_name
connection:
user: "userName"
password: "userPassword"
address: "ip:9669"
postStart: null
preStop: null
logPath: import.log
workingDir: null
files:
- path: edge.csv
failDataPath: edge..csv
batchSize: 2000
limit: null
inOrder: null
type: csv
csv:
withHeader: false
withLabel: false
delimiter: null
schema:
type: edge
edge:
name: transfer
withRanking: null
props:
- name: id
type: string
index: 0
- name: from_id
type: string
index: 1
- name: to_id
type: string
index: 2
- name: no
type: int
index: 4
- name: currency
type: string
index: 5
- name: currency_name
type: string
index: 6
- name: quantity
type: string
index: 8
- name: type
type: string
index: 10
- name: sort_id
type: int
index: 12
- name: transfer_time
type: int
index: 13
- name: transfer_type
type: string
index: 14
srcVID:
index: 15
function: null
type: string
prefix: null
dstVID:
index: 16
function: null
type: string
prefix: null
rank:
index: 17
vertex: null
需要解决的问题
- 无索引,服务器除了导入啥也没干
- 20~30G左右CSV边导入速度半小时就是从7w/s降2w/s, 还有一个大文件是120G已经不敢执行了
请问是否有具体配置可以优化导入速度,或者不要降低导入速度的;
补充问题
- 怎么理解数据倾斜导致的导入速率降低
- 导入CSV在exchange和importer的对比情况是怎样的
更新
- 58分钟后,任务速率已经降到1.6w/s:
[INFO] statsmgr.go:89: Tick: Time(3520.00s), Finished(57214000), Failed(0), Read Failed(0), Latency AVG(1222587us), Batches Req AVG(1224532us), Rows AVG(16253.98/s)