计算机科学与探索 ›› 2015, Vol. 9 ›› Issue (10): 1180-1194.DOI: 10.3778/j.issn.1673-9418.1505080
王慧锋1,段磊1,2+,胡斌3,邓松4,王文韬1,秦攀1
WANG Huifeng1, DUAN Lei1,2+, HU Bin3, DENG Song4, WANG Wentao1, QIN Pan1
摘要: 序列数据广泛存在于实际应用中,因此关于序列数据挖掘的算法研究一直都是热点。序列数据的质量关系到挖掘结果的可靠性,传统的数据质量评价方法多通过统计指标来分析数据的质量问题,但统计指标无法对非结构化序列数据中各元素之间的关系进行评估。为检测序列数据质量,提出了基于概率后缀树模型的序列数据质量评价算法。具体地,在满足间隔约束的前提下,根据数据质量可靠的序列数据样本生成概率后缀树,并根据概率后缀树对查询序列数据进行质量评价。最后通过真实序列数据集验证了算法的有效性、执行效率和伸缩性。