基于Spark的序列数据质量评价

doi:10.3778/j.issn.1673-9418.1609008

计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (6): 897-907.DOI: 10.3778/j.issn.1673-9418.1609008

基于Spark的序列数据质量评价

韩超1，段磊1,2+，邓松3，王慧锋1，唐常杰1

1. 四川大学计算机学院，成都 610065
2. 四川大学华西公共卫生学院，成都 610041
3. 南京邮电大学先进技术研究院，南京 210003

出版日期:2017-06-01 发布日期:2017-06-07

Evaluation of Sequential Data Quality Using Spark

HAN Chao1, DUAN Lei1,2+, DENG Song3, WANG Huifeng1, TANG Changjie1

1. School of Computer Science, Sichuan University, Chengdu 610065, China
2. West China School of Public Health, Sichuan University, Chengdu 610041, China
3. Institute of Advanced Technology, Nanjing University of Posts and Telecommunications, Nanjing 210003, China

Online:2017-06-01 Published:2017-06-07

摘要/Abstract

摘要： 随着序列数据在实际中的广泛应用，序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价，然而这种方法难以实现对大规模数据的处理。为解决此问题，提出了基于Spark的序列数据质量评价算法STALK（sequential data quality evaluation with Spark），并且采用了改进的剪枝策略来提高算法效率。具体地，在Spark平台下，利用大规模序列数据高效建立生成模型，并根据生成模型对查询序列的数据质量进行快速评价。最后通过真实序列数据集验证了STALK算法的有效性、执行效率和可扩展性。

关键词: 数据质量, 概率后缀树, Spark, 并行计算

Abstract: Sequential data are prevalent in many real world applications. The quality evaluation on sequential data, which attracts the attentions from both academic research and industry fields, is important and prerequisite for extracting knowledge from the sequential data. Recently, a method using the probabilistic suffix tree has been proposed for evaluating the sequential data quality. However, this method cannot deal with the large-scale data set. To break this limitation, this paper proposes a Spark-based algorithm, called STALK (sequential data quality evaluation with Spark), for evaluating the quality of large-scale sequential data. Moreover, this paper uses the novel pruning strategies to improve the efficiency of STALK. Specifically, on the Spark platform, the large-scale sequential data are efficiently used to generate model, and the data quality of query sequence can be evaluated according to the generated model rapidly. Experiments on real-world sequential data sets demonstrate that STALK is effective, efficient and scalable.

Key words: data quality, probabilistic suffix tree, Spark, parallel computing

韩超，段磊，邓松，王慧锋，唐常杰. 基于Spark的序列数据质量评价[J]. 计算机科学与探索, 2017, 11(6): 897-907.

HAN Chao, DUAN Lei, DENG Song, WANG Huifeng, TANG Changjie. Evaluation of Sequential Data Quality Using Spark[J]. Journal of Frontiers of Computer Science and Technology, 2017, 11(6): 897-907.

[1]	李秉政，黄高阳，许瑾晨. 面向申威众核处理器的LZMA并行算法设计与优化[J]. 计算机科学与探索, 2020, 14(9): 1501-1509.
[2]	包盼盼，陶传奇，黄志球. 面向开源源码大数据的数据质量研究[J]. 计算机科学与探索, 2020, 14(3): 389-400.
[3]	刘徐，肖志勇，甘霖，徐敬蘅，陈宏博. 神威国产处理器应用程序的并行参数自动寻优[J]. 计算机科学与探索, 2020, 14(11): 1838-1848.
[4]	王永贵，徐山珊，肖成龙. 无线城市社团发现的研究——在Spark上利用改进关联规则实现社团发现的算法[J]. 计算机科学与探索, 2019, 13(9): 1582-1592.
[5]	郭羽含，胡芳霞. 考虑匹配可行性的长期合乘问题建模与求解[J]. 计算机科学与探索, 2019, 13(11): 1894-1910.
[6]	邱慧，邹兆年. Spark GraphX上的SPARQL查询处理算法[J]. 计算机科学与探索, 2018, 12(9): 1361-1371.
[7]	李勇，滕飞，黄齐川，李天瑞. 基于Spark的时间序列并行分解模型[J]. 计算机科学与探索, 2018, 12(7): 1055-1063.
[8]	甘瀛，王鑫，冯志勇，杨雅君. 基于Pregel模型的分布式图着色算法[J]. 计算机科学与探索, 2018, 12(6): 886-897.
[9]	景翠萍，廖丽，王伟. 面向非结构网格应用并行程序的编程工具[J]. 计算机科学与探索, 2018, 12(2): 252-262.
[10]	张云飞，李劲，岳昆，罗之皓，刘惟一. 关联影响力传播最大化方法[J]. 计算机科学与探索, 2018, 12(12): 1891-1902.
[11]	时生乐，赵宇海，李源，印莹，王国仁. 一种有效的基于GraphX的分布式结构化图聚类算法[J]. 计算机科学与探索, 2018, 12(10): 1571-1582.
[12]	邓诗卓，信俊昌，聂铁铮，王国仁. 双缀过滤的大数据相似性连接处理算法[J]. 计算机科学与探索, 2017, 11(8): 1235-1245.
[13]	王雯，赵衎衎，李翠平，陈红，孙辉. Spark平台下的短文本特征扩展与分类研究[J]. 计算机科学与探索, 2017, 11(5): 732-741.
[14]	王涛，胡双林. 材料科学中的高性能计算[J]. 计算机科学与探索, 2017, 11(2): 185-193.
[15]	王泽奥，吴斌，吴心宇，张子兴. 大规模多维网络数据分析框架的研究与实现[J]. 计算机科学与探索, 2017, 11(12): 1941-1952.

基于Spark的序列数据质量评价

Evaluation of Sequential Data Quality Using Spark

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics