计算机科学与探索 ›› 2016, Vol. 10 ›› Issue (12): 1673-1682.DOI: 10.3778/j.issn.1673-9418.1509082
钟敏娟1,2+,万常选1,2,刘德喜1,2,江腾蛟1,2,刘爱红1,2
ZHONG Minjuan1,2+, WAN Changxuan1,2, LIU Dexi1,2, JIANG Tengjiao1,2, LIU Aihong1,2
摘要: 伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。