%0 Journal Article %A 余海洋 %A 林琛 %A 陈珂 %A 江弋 %A 邹权 %T Pass-Join-K:多分段匹配的相似性连接算法 %D 2013 %R 10.3778/j.issn.1673-9418.1305047 %J 计算机科学与探索 %P 924-932 %V 7 %N 10 %X 相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注。研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join 算法的基础上,提出了一个新的Pass-Join-K 算法。Pass-Join-K 算法在长短字符串上都有很好的表现。该算法的主要思想是利用Pass-Join 算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的。实验结果显示,Pass-Join-K 算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升。 %U http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.1305047