求解图算法example中dataframe跟新原理


如上述代码的main方法中,在进入断点时,我如果向图数据库中添加图数据,会发现后续图算法也会把我新添加的图数据计算在内,这太神奇了,求解在底层是如何对dataframe进行更新的呢?

你可以了解下spark dataframe的transform 和action 算子。从nebula读数据算子属于transform,当代码运行至断点时,spark只是记录了 read from nebula 的linage, 并没有真正去做执行。 之后当遇到action算子时 才会真正执行前面的transfrom算子。
https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations

非常感谢,是这样的,今天在调试过程中也是学习到了transform 和action 算子,正如您所说的一样

2 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。