关于 nebula-python 的数据导入问题

100万条自测数据,直接用importer入库时间是4min30s左右,使用Python的入库接口,通用8个线程发送数据到入库接口,同样的数据和本体格式入库时间是30min分钟,每个线程发送2到3万条原始表格数据合并成的长的insert数据,请问时间差距为什么这么大?你们有建议的入库的每个进程的数据量以及进程数吗?

在入同一批数据中,使用importer的csv入库功能,100万数据使用3分钟左右,而使用nebula Python接口并采用8线程,同样配置数据使用30分钟,请问是importer的batch参数对结果起作用吗?我们通过importer的日志发现importer的入库其实就是用代码的语句入库,但是为啥速度会差别如此之大?通过对比发现

spaceName: basic_int_examples
  batch: 128
  readerConcurrency: 50
  importerConcurrency: 512
  statsInterval: 10s
  hooks:
    before:
      - statements:
          - UPDATE CONFIGS storage:wal_ttl=3600;
          - UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = true };
      - statements:
          - |
            DROP SPACE IF EXISTS basic_int_examples;
            CREATE SPACE IF NOT EXISTS basic_int_examples(partition_num=5, replica_factor=1, vid_type=int);
            USE basic_int_examples;
        wait: 10s
    after:
      - statements:
          - |
            UPDATE CONFIGS storage:wal_ttl=86400;
            UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = false };

请问这个batch对入库速度有影响吗?

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。