如题,local模式好像效率不高
1 个赞
你是多少数据量,用了多长时间?
1 个赞
感谢回复:
1亿条边,跑<联通分量>算法,2个小时还没跑完;(结合了PageRankExample的string id转换代码)
PS:我改了代码,数据从hive度,结果也写hive表;
这个数量级可能local确实比较慢。如果您是做验证,可以小数据用local跑跑
已经验证过了,打算上线跑生产数据;
我的问题劳烦解答下,不太确定能否yarn方式跑,因为string id转换好像是本地的?
我觉得应该是可以跑的,您试试。
1 个赞
好的我试试,不行的话考虑把string id映射文件encodeId.csv,放到hdfs上;
这个映射文件有5个G大,头疼
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。