计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (10): 890-898.DOI: 10.3778/j.issn.1673-9418.2010.10.003
黄维篁+;李国良;冯建华
HUANG Weihuang+;LI Guoliang;FENG Jianhua
Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
摘要: 随着关键词查询技术的飞速发展和互联网数据的迅猛增长, 高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式, 通过这种方式, 能够在短时间内选择出相关度高的数据源, 在这些数据源中执行检索, 从而减少查询时间, 给用户带来了更好的查询体验。从实验结果可以看出,这种方法在实际系统(例如机票查询系统)中可以得到很好的效果。为了在大规模的数据集上高效地实现相关算法, 将min-hash 算法应用到相似度估计中来, 减少了查询空间和时间的消耗。与传统算法的比较结果表明:min-hash 算法能够得到较高的精确度, 并且极大地节省了算法的运行时间。
中图分类号: