Nebula Algorithm算法问题,如使用PageRankExample的string id映射,能用yarn client/cluster模式跑吗?

如题,local模式好像效率不高

1 个赞

你是多少数据量,用了多长时间?

1 个赞

感谢回复:
1亿条边,跑<联通分量>算法,2个小时还没跑完;(结合了PageRankExample的string id转换代码)
PS:我改了代码,数据从hive度,结果也写hive表;

这个数量级可能local确实比较慢。如果您是做验证,可以小数据用local跑跑

已经验证过了,打算上线跑生产数据;
我的问题劳烦解答下,不太确定能否yarn方式跑,因为string id转换好像是本地的?

我觉得应该是可以跑的,您试试。

1 个赞

好的我试试,不行的话考虑把string id映射文件encodeId.csv,放到hdfs上;
这个映射文件有5个G大,头疼

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。