关于 nebula-python 的数据导入问题

王鑫1 · 2023 年6 月 12 日 02:32

100万条自测数据，直接用importer入库时间是4min30s左右，使用Python的入库接口，通用8个线程发送数据到入库接口，同样的数据和本体格式入库时间是30min分钟，每个线程发送2到3万条原始表格数据合并成的长的insert数据，请问时间差距为什么这么大？你们有建议的入库的每个进程的数据量以及进程数吗？

在入同一批数据中，使用importer的csv入库功能，100万数据使用3分钟左右，而使用nebula Python接口并采用8线程，同样配置数据使用30分钟，请问是importer的batch参数对结果起作用吗？我们通过importer的日志发现importer的入库其实就是用代码的语句入库，但是为啥速度会差别如此之大？通过对比发现

spaceName: basic_int_examples
  batch: 128
  readerConcurrency: 50
  importerConcurrency: 512
  statsInterval: 10s
  hooks:
    before:
      - statements:
          - UPDATE CONFIGS storage:wal_ttl=3600;
          - UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = true };
      - statements:
          - |
            DROP SPACE IF EXISTS basic_int_examples;
            CREATE SPACE IF NOT EXISTS basic_int_examples(partition_num=5, replica_factor=1, vid_type=int);
            USE basic_int_examples;
        wait: 10s
    after:
      - statements:
          - |
            UPDATE CONFIGS storage:wal_ttl=86400;
            UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = false };

请问这个batch对入库速度有影响吗？

system · 2023 年7 月 12 日 02:32

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。