计算机科学与探索 ›› 2018, Vol. 12 ›› Issue (1): 49-64.DOI: 10.3778/j.issn.1673-9418.1610044
朱命冬1,2+,徐立新1,申德荣2,寇 月2,聂铁铮2
ZHU Mingdong1,2+, XU Lixin1, SHEN Derong2, KOU Yue2, NIE Tiezheng2
摘要: 最近邻查询在多个领域具有广泛的应用,如组合过滤、基于位置的服务、决策支持系统等。而且随着Web信息实体抽取、隐私保护信息转化、图像识别等技术的发展和普及,在诸多领域,不确定性文本数据普遍存在,基于信息论的TF-IDF算法,可以将文本型的相似匹配转化为数值型的向量的计算,具有严密性和有效性。但TF-IDF信息的余弦距离不属于度量空间,难于构建索引。为此主要研究了面向不确定文本数据基于余弦相似度的相似性查询方法。通过分析不确定性余弦相似度计算的特性,提出了快速相似度计算方法。通过对余弦距离的计算进行转换,构建改进的索引结构sMVP-tree(statistic multiple vantage point tree),并给出了基于余弦相似度面向不确定性数据的相似度计算方法。最后,结合该相似度计算方法提出了分布式环境下[kNN]查询和[RkNN]查询算法。大量的基于真实数据的实验验证了算法的正确性和有效性。