计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (6): 897-907.DOI: 10.3778/j.issn.1673-9418.1609008
韩 超1,段 磊1,2+,邓 松3,王慧锋1,唐常杰1
HAN Chao1, DUAN Lei1,2+, DENG Song3, WANG Huifeng1, TANG Changjie1
摘要: 随着序列数据在实际中的广泛应用,序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价,然而这种方法难以实现对大规模数据的处理。为解决此问题,提出了基于Spark的序列数据质量评价算法STALK(sequential data quality evaluation with Spark),并且采用了改进的剪枝策略来提高算法效率。具体地,在Spark平台下,利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价。最后通过真实序列数据集验证了STALK算法的有效性、执行效率和可扩展性。