Nebula Algorithm算法问题，如使用PageRankExample的string id映射，能用yarn client/cluster模式跑吗？

king · 2022 年5 月 23 日 09:45

如题，local模式好像效率不高

caton-hpg · 2022 年5 月 23 日 09:56

你是多少数据量，用了多长时间？

king · 2022 年5 月 23 日 10:06

感谢回复：
1亿条边，跑<联通分量>算法，2个小时还没跑完；（结合了PageRankExample的string id转换代码）
PS：我改了代码，数据从hive度，结果也写hive表；

caton-hpg · 2022 年5 月 23 日 10:10

这个数量级可能local确实比较慢。如果您是做验证，可以小数据用local跑跑

king · 2022 年5 月 23 日 10:13

已经验证过了，打算上线跑生产数据；
我的问题劳烦解答下，不太确定能否yarn方式跑，因为string id转换好像是本地的？

caton-hpg · 2022 年5 月 23 日 10:31

我觉得应该是可以跑的，您试试。

king · 2022 年5 月 23 日 12:21

好的我试试，不行的话考虑把string id映射文件encodeId.csv，放到hdfs上；
这个映射文件有5个G大，头疼

system · 2022 年6 月 22 日 12:21

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。