100万条自测数据,直接用importer入库时间是4min30s左右,使用Python的入库接口,通用8个线程发送数据到入库接口,同样的数据和本体格式入库时间是30min分钟,每个线程发送2到3万条原始表格数据合并成的长的insert数据,请问时间差距为什么这么大?你们有建议的入库的每个进程的数据量以及进程数吗?
在入同一批数据中,使用importer的csv入库功能,100万数据使用3分钟左右,而使用nebula Python接口并采用8线程,同样配置数据使用30分钟,请问是importer的batch参数对结果起作用吗?我们通过importer的日志发现importer的入库其实就是用代码的语句入库,但是为啥速度会差别如此之大?通过对比发现
spaceName: basic_int_examples
batch: 128
readerConcurrency: 50
importerConcurrency: 512
statsInterval: 10s
hooks:
before:
- statements:
- UPDATE CONFIGS storage:wal_ttl=3600;
- UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = true };
- statements:
- |
DROP SPACE IF EXISTS basic_int_examples;
CREATE SPACE IF NOT EXISTS basic_int_examples(partition_num=5, replica_factor=1, vid_type=int);
USE basic_int_examples;
wait: 10s
after:
- statements:
- |
UPDATE CONFIGS storage:wal_ttl=86400;
UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = false };
请问这个batch对入库速度有影响吗?