spark 调用 scan 接口分区数设置

firepation · 2020 年7 月 25 日 02:14

我现在想通过 spark 自定义数据源，通过 scan 接口读取 nebula 的数据，不过需要设置分区数量，请问这个分区数量该怎么设置呢？

目前图数据库集群由三台组成，三台机器都开了 storaged 和 metad 进程，每台机器都是 64G，8核，HDD

pandasheeps · 2020 年7 月 26 日 09:45

在创建space的时候，设置partition数。

firepation · 2020 年7 月 27 日 07:00

不好意思，是我描述的不够清楚，利用 spark 自定义数据源要设置一个并发数，就是这个分区的数量。我想了解在这个配置下，scan 接口能承受多大的并发量呢？

darionyaphet · 2020 年7 月 28 日 01:52

可以通过Meta获取分区信息

knightXun · 2020 年7 月 28 日 02:21

hi, 您好，并发数跟partiton的数量是有关的，建议您先show parts，查看space的partition的数量，然后根据这跟partition的数量设置并发量。

firepation · 2020 年7 月 28 日 02:53

如果在以上的配置中，space 包含了 100 个分区，该怎么设置 spark partition 的数量呢？

knightXun · 2020 年7 月 28 日 03:43

设置成100吧