关于nebula算法包在大数据量上的运行效率（百亿级别数量）

user82 · 2023 年3 月 2 日 07:20

目前我在分布式环境下部署了Nebula Graph，并在14万节点和219万边的数据量上，利用算法包的louvain算法实现社区划分，后续可能要在百亿节点的数据上试验。
想问一下各位同学和图算法的大佬们，有没有做过类似数据量的社区划分呢？其效率怎么样，大概需要跑多久呢？

wey · 2023 年3 月 2 日 07:56

开源方案的 Algorithm 的内存占用不算优秀，可以考虑看看我们的商业方案 NebulaGraph Analytics

nicole · 2023 年3 月 2 日 08:08

执行基于spark 的louvain 时要预留3-5倍的内存空间，中间涉及到多个shuffle算子，耗时和内存都比较大。按照之前我在亿级边的图规模上跑的经验，百亿节点的数据跑起来要以小时为单位了，具体时间也和你的参数配置、executor的配置有关。

user82 · 2023 年3 月 2 日 08:10

除了服务器配置，nebula的配置中需要调整哪些吗？

user82 · 2023 年3 月 2 日 08:10

好的！谢谢！我看一下

nicole · 2023 年3 月 2 日 08:14

基本没啥要调整的，跑算法时就是从nebula中把数据scan出来

user82 · 2023 年3 月 2 日 08:26

OK 感谢！

system · 2023 年4 月 1 日 08:27

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。