spark connector 增量

请问一下使用spark/flink connector将数据从集群A导入到集群B时,数据是A某个时刻的快照,还是导入过程中A的增量也包含呢?

是不包括的,我简单引用下 Spark Connector 的作者的话:

如果是用 Connector 做数据迁移, 合理就是不应该有数据的变动了。因为如果用 Connector 读 A 的数据,写入 B 时, A 还有数据不断的写入,那两者就会存在数据不一致了。

比如,我从 A 和 B 两个人那里获取数据, A 已经获取完了,但 B 还在获取过程中。此时 A 又有新数据进去了,我是不知道的,这个新数据就不会被我读到。

所以数据迁移最合理的就是快照迁移, 然后是用 Connector 读出来写进去,但读写过程不能有数据变动才对。

快照迁移支持增量吗
我们主要想尽量保持两个集群的数据一致性,或者有其他什么迁移方法吗

我们的BR工具会在3.0版本发出(不支持增量), 目前还没有数据迁移的工具哈。
用connector做数据迁移的话,只能是全量迁移,不支持增量。 而且你要在迁移过程中保持A集群数据不要有变动。

好的吧,多谢,要是能支持增量就更好了 :+1:

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。