如何理解Jaccard算法中参数tol

在Jaccard算法中,有一个配置参数tol。这个值的作用是什么?假如该值设置为0.5,是否表示算法计算结果都是相似度在0.5以上的数据?

是 approxSimilarityJoin 中的 threshold

def approxSimilarityJoin(
    datasetA: Dataset[_],
    datasetB: Dataset[_],
    threshold: Double,
    distCol: String): Dataset[_] = {
    ...
    // Filter the joined datasets where the distance are smaller than the threshold.
    joinedDatasetWithDist.filter(col(distCol) < threshold)

我刚好在之前问过自己这个问题,写到了文章里

3 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。