计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (8): 919-932.DOI: 10.3778/j.issn.1673-9418.1403053
顾彦慧1,赵 斌1,周俊生1,曲维光1,2+
GU Yanhui, ZHAO Bin, ZHOU Junsheng, QU Weiguang
摘要: 如何快速有效地抽取相似短文本是许多应用系统的重要研究问题。在大数据情况下,效率问题对于实际系统非常重要,而现有的短文本抽取策略不能满足用户对性能的要求。以相似短文本的抽取为研究对象,针对传统研究中的效率问题,对如何从给定的短文本集合中快速检索出top-k个近似短文本进行了研究,并基于一个有效的基本框架提出了一种快速策略,用于满足用户对效率的要求。实验结果证明了该策略在保证有效性不变的情况下,大幅度提高了抽取效率,并且在效率上优于现有方法。