使用ldbc_snb生成的数据结构和benchmark(V2)数据结构不符

Jun69 · 2021 年3 月 10 日 09:29

问题描述
如题：例如forum对象的两者定义数据结构和顺序不符
使用ldbc项目生成的数据结构如下forum：git项目
ldbc数据生成命令：

rm -rf social_network/ substitution_parameters && \
  docker run --rm --mount type=bind,source="$(pwd)/",target="/opt/ldbc_snb_datagen/out" --mount type=bind,source="$(pwd)/params.ini",target="/opt/ldbc_snb_datagen/params.ini" ldbc/datagen; \
  sudo chown -R $USER:$USER social_network/ substitution_parameters/

[root@test-nebula-metad-cluster-1 data]# head  social_network/dynamic/forum_0_0.csv
id|title|creationDate
0|Wall of Mahinda Perera|2010-02-14T15:32:20.447+0000
1786706395137|Album 0 of Mahinda Perera|2012-03-12T20:56:11.499+0000
1374389534722|Album 1 of Mahinda Perera|2011-10-05T14:38:25.019+0000
1374389534723|Album 2 of Mahinda Perera|2011-09-16T13:10:35.633+0000
824633720836|Album 3 of Mahinda Perera|2011-01-21T16:49:02.673+0000
962072674310|Album 5 of Mahinda Perera|2011-03-15T14:46:11.570+0000
687194767367|Album 6 of Mahinda Perera|2010-12-29T01:05:01.280+0000
1236950581256|Album 7 of Mahinda Perera|2011-08-29T23:34:06.101+0000
274877906953|Album 8 of Mahinda Perera|2010-05-28T08:19:25.474+0000

benchmark项目定义的数据结构:github链接

- path: {path}/ldbc_snb_datagen/social_network/dynamic/forum.csv
    failDataPath: ./err/data/forum.csv
    batchSize: 100
    type: csv
    csv:
      withHeader: false
      withLabel: false
      delimiter: "|"
    schema:
      type: vertex
      vertex:
        vid:
          index: 1
          type: string
        tags:
          - name: forum
            props:
              - name: time
                type: string
                index: 0
              - name: title

tom-chensf · 2021 年3 月 10 日 11:32

1、这个是因为ldbc 的代码更新导致的，我们内部一直固化用的是之前的版本生成的数据，你那边可以根据自己的需求修改一下 yaml 文件
2、ldbc 里面也有好几种配置文件每个配置文件生成的数据集合也是不同的，开发者需要根据自己的测试需要选择

Jun69 · 2021 年3 月 12 日 07:10

了解了，希望在benchmark 里可以简单注明下,对使用者会更友好

Jun69 · 2021 年3 月 15 日 11:35

你好，方便ldbc_snb 的数据生成参数发我吗？我试了factor 为1000也没有生成100亿点边

tom-chensf · 2021 年3 月 16 日 01:54

params.ini

generator.scaleFactor:1
generator.numThreads:2
hadoop.numThreads:10