计算机科学与探索 ›› 2013, Vol. 7 ›› Issue (10): 924-932.DOI: 10.3778/j.issn.1673-9418.1305047
余海洋1,林 琛1,2,陈 珂3,江 弋1,邹 权1,2+
YU Haiyang1, LIN Chen1,2, CHEN Ke3, JIANG Yi1, ZOU Quan1,2+
摘要: 相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注。研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join 算法的基础上,提出了一个新的Pass-Join-K 算法。Pass-Join-K 算法在长短字符串上都有很好的表现。该算法的主要思想是利用Pass-Join 算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的。实验结果显示,Pass-Join-K 算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升。