计算机科学与探索 ›› 2018, Vol. 12 ›› Issue (7): 1055-1063.DOI: 10.3778/j.issn.1673-9418.1705036
李勇,滕飞,黄齐川,李天瑞
LI Yong, TENG Fei, HUANG Qichuan, LI Tianrui
摘要:
为了应对大数据时代下的时间序列分解问题,基于分布式内存计算框架Spark,提出了一种并行的时间序列分解模型。模型首先将完整的时间序列切分成一系列的时间子序列,通过对时间子序列两端冗余数据的方式保护内部数据免受端点数据污染;然后将带有冗余的时间子序列分发给Spark集群的计算节点,每个节点使用时间序列分解算法对时间子序列进行处理;最后去除分解结果的冗余部分,再将其合并。针对模型实例进行实验,结果证明了该模型可以高效准确地分析大规模时间序列。