Flink导入数据, 发现丢失数据

导入80亿+关系,和89亿点, 完成后发现点可以对上, 但是关系少了3000W+, 没有导入的error, 能有哪些可能性丢失数据呢?/

image

自定义累加器

如果确定导入边过程没有error日志的话,看下边是否存在重复数据啊。
如果没有指定rank, 那么决定边的唯一性的是: src、dst
如果指定了rank,决定边的唯一性的是src、dst、rank

2 个赞

浙ICP备20010487号