Flink导入数据, 发现丢失数据

导入80亿+关系,和89亿点, 完成后发现点可以对上, 但是关系少了3000W+, 没有导入的error, 能有哪些可能性丢失数据呢?/

image

自定义累加器

如果确定导入边过程没有error日志的话,看下边是否存在重复数据啊。
如果没有指定rank, 那么决定边的唯一性的是: src、dst
如果指定了rank,决定边的唯一性的是src、dst、rank

2 个赞

该主题在最后一个回复创建后7天后自动关闭。不再允许新的回复。

浙ICP备20010487号