关于nebula算法包在大数据量上的运行效率(百亿级别数量)

目前我在分布式环境下部署了Nebula Graph,并在14万节点和219万边的数据量上,利用算法包的louvain算法实现社区划分,后续可能要在百亿节点的数据上试验。
想问一下各位同学和图算法的大佬们,有没有做过类似数据量的社区划分呢?其效率怎么样,大概需要跑多久呢?

开源方案的 Algorithm 的内存占用不算优秀,可以考虑看看我们的商业方案 NebulaGraph Analytics

测试结果:Algorithm nebula-algorithm/algorithm_test.md at master · vesoft-inc/nebula-algorithm · GitHub

cc @nicole

Ref: NebulaGraph Analytics - NebulaGraph Database 手册

执行基于spark 的louvain 时要预留3-5倍的内存空间,中间涉及到多个shuffle算子,耗时和内存都比较大。 按照之前我在亿级边的图规模上跑的经验,百亿节点的数据跑起来要以小时为单位了,具体时间也和你的参数配置、executor的配置有关。

1 个赞

除了服务器配置,nebula的配置中需要调整哪些吗?

好的! 谢谢!我看一下

基本没啥要调整的,跑算法时就是从nebula中把数据scan出来

OK 感谢!

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。