计算机科学与探索 ›› 2022, Vol. 16 ›› Issue (7): 1552-1560.DOI: 10.3778/j.issn.1673-9418.2101031
收稿日期:
2020-12-02
修回日期:
2021-01-29
出版日期:
2022-07-01
发布日期:
2021-02-05
作者简介:
刘春红(1969—),女,博士,副教授,主要研究方向为云计算、机器学习、服务计算。 基金资助:
LIU Chunhong1,2,+(), ZHANG Zhihua1, JIAO Jie1, CHENG Bo3
Received:
2020-12-02
Revised:
2021-01-29
Online:
2022-07-01
Published:
2021-02-05
Supported by:
摘要:
准确的负载预测是实现云平台弹性资源管理的关键。针对云负载预测中存在大量运行周期较短的任务,导致预测模型训练数据不足的问题,提出一种利用多变量负载序列结构化信息的预测方法(SP-MWS)。依据同一任务运行中消耗的多种资源间内在的相关性,挖掘多维负载序列间的信息,补充小样本序列的预测信息量。首先,为获取相关性强的负载类型,采用最大互信息系数(MIC)和信息熵进行负载类型的度量选择;然后,构建核范数正则化多任务学习模型(TNR-MTL),将相关负载序列同时输入,实现其结构化信息的挖掘,并完成多种负载的同时预测。在Google云平台的运行监控日志数据集上进行验证,实验结果表明,所提方法获得的相关负载序列类型可明显增加模型信息量。对于预测模型的决策依据进行解释性分析,可视化每种变量对预测结果的贡献度;对比实验表明,所提预测方法在时间性能和预测精度上均优于常用的负载预测方法。
中图分类号:
刘春红, 张志华, 焦洁, 程渤. 小样本负载序列的结构化预测方法[J]. 计算机科学与探索, 2022, 16(7): 1552-1560.
LIU Chunhong, ZHANG Zhihua, JIAO Jie, CHENG Bo. Structured Prediction Method for Small Sample Workload Sequences[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(7): 1552-1560.
类别 | 资源名称 |
---|---|
待预测资源 | 平均CPU利用率(mean CPU usage rate)、规范内存使用(canonical memory usage)、平均使用的本地磁盘空间(mean local disk space used) |
参与选择的其他资源 | 最大CPU使用(maximum CPU usage,maxCPU)、最大磁盘I/O时间(maximum disk I/O time,maxDiskIO)、平均磁盘I/O时间(mean disk I/O time,meanDiskIO)、分配内存使用(assigned memory usage,aMem)、最大内存使用(maximum memory usage,maxMem)、未映射页面缓存内存使用(unmapped page cache memory usage,unPCM)和页面缓存内存使用总量(total page cache memory usage,toPCM) |
表1 实验数据对象
Table 1 Experimental data objects
类别 | 资源名称 |
---|---|
待预测资源 | 平均CPU利用率(mean CPU usage rate)、规范内存使用(canonical memory usage)、平均使用的本地磁盘空间(mean local disk space used) |
参与选择的其他资源 | 最大CPU使用(maximum CPU usage,maxCPU)、最大磁盘I/O时间(maximum disk I/O time,maxDiskIO)、平均磁盘I/O时间(mean disk I/O time,meanDiskIO)、分配内存使用(assigned memory usage,aMem)、最大内存使用(maximum memory usage,maxMem)、未映射页面缓存内存使用(unmapped page cache memory usage,unPCM)和页面缓存内存使用总量(total page cache memory usage,toPCM) |
待预测负载类型 | 其他负载类型(从大到小) |
---|---|
CPU | CPU、内存、meanDiskIO、aMem、maxDiskIO、maxCPU、unPCM、maxMem、toPCM、磁盘 |
内存 | 内存、CPU、meanDiskIO、aMem、maxMem、toPCM、unPCM、maxDiskIO、maxCPU、磁盘 |
磁盘 | 磁盘、CPU、aMem、内存、meanDiskIO、maxDiskIO、maxCPU、unPCM、maxMem、toPCM |
表2 待预测负载与其他负载类型的相关性统计结果
Table 2 Statistical results of correlation between load to be predicted and other load types
待预测负载类型 | 其他负载类型(从大到小) |
---|---|
CPU | CPU、内存、meanDiskIO、aMem、maxDiskIO、maxCPU、unPCM、maxMem、toPCM、磁盘 |
内存 | 内存、CPU、meanDiskIO、aMem、maxMem、toPCM、unPCM、maxDiskIO、maxCPU、磁盘 |
磁盘 | 磁盘、CPU、aMem、内存、meanDiskIO、maxDiskIO、maxCPU、unPCM、maxMem、toPCM |
阶段 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
V3 | 6.403 8E-04 | 4.970 9E-04 | 0.015 4 | 0.007 7 |
V4 | 6.515 2E-04 | 4.812 9E-04 | 0.015 0 | 0.007 5 |
V5 | 6.229 2E-04 | 4.529 1E-04 | 0.014 1 | 0.007 1 |
V6 | 5.298 3E-04 | 3.750 1E-04 | 0.011 7 | 0.005 9 |
表3 不同阶段的预测结果
Table 3 Forecast results at different stages
阶段 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
V3 | 6.403 8E-04 | 4.970 9E-04 | 0.015 4 | 0.007 7 |
V4 | 6.515 2E-04 | 4.812 9E-04 | 0.015 0 | 0.007 5 |
V5 | 6.229 2E-04 | 4.529 1E-04 | 0.014 1 | 0.007 1 |
V6 | 5.298 3E-04 | 3.750 1E-04 | 0.011 7 | 0.005 9 |
方法 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
SP-MWS | 5.136 8E-04 | 3.695 0E-04 | 0.011 1 | 0.005 6 |
多元线性 | 0.001 3 | 7.830 1E-04 | 0.023 5 | 0.011 9 |
P-SVR | 0.001 7 | 0.001 3 | 0.037 6 | 0.019 2 |
M-LSTM | 0.002 0 | 0.001 4 | 0.040 0 | 0.020 5 |
表4 不同方法下CPU预测误差对比
Table 4 Comparison of CPU prediction errors under different methods
方法 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
SP-MWS | 5.136 8E-04 | 3.695 0E-04 | 0.011 1 | 0.005 6 |
多元线性 | 0.001 3 | 7.830 1E-04 | 0.023 5 | 0.011 9 |
P-SVR | 0.001 7 | 0.001 3 | 0.037 6 | 0.019 2 |
M-LSTM | 0.002 0 | 0.001 4 | 0.040 0 | 0.020 5 |
方法 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
SP-MWS | 0.001 5 | 9.117 0E-04 | 0.010 9 | 0.005 4 |
多元线性 | 0.003 2 | 0.001 8 | 0.020 7 | 0.010 5 |
P-SVR | 0.001 2 | 9.252 2E-04 | 0.011 0 | 0.005 5 |
M-LSTM | 0.002 4 | 0.002 0 | 0.023 6 | 0.011 8 |
表5 不同方法下内存预测误差对比
Table 5 Comparison of memory prediction errors under different methods
方法 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
SP-MWS | 0.001 5 | 9.117 0E-04 | 0.010 9 | 0.005 4 |
多元线性 | 0.003 2 | 0.001 8 | 0.020 7 | 0.010 5 |
P-SVR | 0.001 2 | 9.252 2E-04 | 0.011 0 | 0.005 5 |
M-LSTM | 0.002 4 | 0.002 0 | 0.023 6 | 0.011 8 |
方法 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
SP-MWS | 2.233 3E-04 | 1.368 4E-04 | 0.012 7 | 0.006 4 |
多元线性 | 6.399 7E-04 | 4.585 7E-04 | 0.044 5 | 0.022 5 |
P-SVR | 0.001 1 | 7.655 8E-04 | 0.079 1 | 0.038 1 |
M-LSTM | 0.002 2 | 0.001 6 | 0.169 4 | 0.084 2 |
表6 不同方法下磁盘预测误差对比
Table 6 Comparison of disk prediction errors under different methods
方法 | RMSE | MAE | MRE | SMAPE |
---|---|---|---|---|
SP-MWS | 2.233 3E-04 | 1.368 4E-04 | 0.012 7 | 0.006 4 |
多元线性 | 6.399 7E-04 | 4.585 7E-04 | 0.044 5 | 0.022 5 |
P-SVR | 0.001 1 | 7.655 8E-04 | 0.079 1 | 0.038 1 |
M-LSTM | 0.002 2 | 0.001 6 | 0.169 4 | 0.084 2 |
方法 | 时间/s |
---|---|
SP-MWS | 0.023 7 |
多元线性 | 0.016 6 |
P-SVR | 0.376 1 |
M-LSTM | 19.255 2 |
表7 不同方法下三种资源的预测时间(滑动窗口为60)
Table 7 Forecasting time of three resources under different methods (sliding window is 60)
方法 | 时间/s |
---|---|
SP-MWS | 0.023 7 |
多元线性 | 0.016 6 |
P-SVR | 0.376 1 |
M-LSTM | 19.255 2 |
方法 | 时间/s |
---|---|
SP-MWS | 0.018 8 |
多元线性 | 0.015 6 |
P-SVR | 0.372 9 |
M-LSTM | 11.044 8 |
表8 不同方法下三种资源的预测时间(滑动窗口为30)
Table 8 Forecasting time of three resources under different methods (sliding window is 30)
方法 | 时间/s |
---|---|
SP-MWS | 0.018 8 |
多元线性 | 0.015 6 |
P-SVR | 0.372 9 |
M-LSTM | 11.044 8 |
[1] |
AL-DHURAIBI Y, PARAISO F, DJARALLAH N, et al. Ela-sticity in cloud computing: state of the art and research chal-lenges[J]. IEEE Transactions on Services Computing, 2018, 11(2): 430-447.
DOI URL |
[2] | COUTINHO E F, DE CARVALHO SOUSA F R, REGO P A L, et al. Elasticity in cloud computing: a survey[J]. Anna-les des Télécommunications, 2015, 70(7/8): 289-309. |
[3] | CALHEIROS R N, MASOUMI E, RANJAN R, et al. Work-load prediction using ARIMA model and its impact on cloud applications’ QoS[J]. IEEE Transactions on Cloud Compu-ting, 2015, 3(4): 449-458. |
[4] |
LIU C H, LIU C C, SHANG Y L, et al. An adaptive predic-tion approach based on workload pattern discrimination in the cloud[J]. Journal of Network and Computer Applications, 2017, 80: 35-44.
DOI URL |
[5] |
NGUYEN H M, GAURAV K, DAEYOUNG K. Host load prediction in cloud computing using long short-term memory encoder-decoder[J]. The Journal of Supercomputing, 2019, 75(11): 7592-7605.
DOI URL |
[6] |
HIEU N T, DI FRANCESCO M, YLÄ-JÄÄSKI A. Virtual machine consolidation with multiple usage prediction for energy-efficient cloud data centers[J]. IEEE Transactions on Services Computing, 2020, 13(1): 186-199.
DOI URL |
[7] | TRAN N, NGUYEN T, NGUYEN B M, et al. A multivariate fuzzy time series resource forecast model for clouds using LSTM and data correlation analysis[C]// Proceedings of the 22nd International Conference KES-2018, Belgrade, Sep 3-5, 2018. New York: Elsevier Science, 2018: 636-645. |
[8] | ISLAM S, KEUNG J, LEE K, et al. Empirical prediction mo-dels for adaptive resource provisioning in the cloud[J]. Fu-ture Generation Computer Systems, 2012, 28(1): 155-162. |
[9] | REISS C, TUMANOV A, GANGER G R, et al. Heterogeneity and dynamicity of clouds at scale: Google trace analysis[C]// Proceedings of the 2012 ACM Symposium on Cloud Compu-ting, San Jose, Oct 14-17, 2012. New York: ACM, 2012: 1-13. |
[10] | VERGARA J R, ESTEVEZ P. A review of feature selec-tion methods based on mutual information[J]. Neural Com-puting & Applications, 2014, 24(1): 175-186. |
[11] | 张俐, 袁玉宇, 王枞. 基于最大相关信息系数的FCBF特征选择算法[J]. 北京邮电大学学报, 2018, 41(4): 86-90. |
ZHANG L, YUAN Y Y, WANG C. FCBF feature selection algorithm based on maximum information coefficient[J]. Journal of Beijing University of Posts and Telecom-munications, 2018, 41(4): 86-90. | |
[12] | 殷怡. 复杂时间序列的相关性及信息熵研究[D]. 北京: 北京交通大学, 2018. |
YIN Y. Study on the correlation and information entropy of complex time series[D]. Beijing: Beijing Jiaotong Univer-sity, 2018. | |
[13] | 王二威, 瞿英, 吴祈宗. 基于信息熵的软件可靠性多模型动态预测方法[J]. 桂林理工大学学报, 2016, 36(3): 603-608. |
WANG E W, QU Y, WU Q Z. Multi-model dynamic predic-tion method of software reliability based on information entropy[J]. Journal of Guilin University of Technology, 2016, 36(3): 603-608. | |
[14] | REISS C, WILKES J, HELLERSTEIN J L. Google cluster-usage traces: format+schema[Z]. Google Inc., 2011: 1-14. |
[15] | DOU C X, BIAN Z W, ZHANG T F. Short-term photovo-ltaic output forecasting based on multivariable phase space reconstruction and support vector regression[C]// Proceedings of the 5th IEEE International Conference on Cloud Com-puting and Intelligence Systems, Nanjing, Nov 23-25, 2018. Piscataway: IEEE, 2018: 983-987. |
[16] | RIBEIRO M T, SINGH S, GUESTRIN C. “Why should I trust you?”: explaining the predictions of any classifier[C]// Proceedings of the Demonstrations Session, the 2016 Confe-rence of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego, Jun 12-17, 2016. Stroudsburg: ACL, 2016: 1135-1144. |
[17] | STRUMBELJ E, KONONENKO I. Explaining prediction models and individual predictions with feature contributions[J]. Knowledge & Information Systems, 2014, 41(3): 647-665. |
[1] | 吴虹佳,刘芳,刘斌,蔡志平. 分散计算:技术、应用与挑战[J]. 计算机科学与探索, 2020, 14(5): 721-730. |
[2] | 郑良汉,何亨,童潜,杨湘,陈享. 云环境中的多授权机构访问控制方案[J]. 计算机科学与探索, 2020, 14(11): 1865-1878. |
[3] | 张胜霞,田呈亮. 在幺模矩阵加密方法下的安全外包算法[J]. 计算机科学与探索, 2020, 14(1): 73-82. |
[4] | 陈彦橦,裴树军,苗辉. 云科学工作流截止期限约束代价优化调度算法[J]. 计算机科学与探索, 2019, 13(8): 1307-1318. |
[5] | 任晓莉,杨建卫,李乃乾. 云计算中基于动态虚拟化电子流密码的安全存储[J]. 计算机科学与探索, 2019, 13(8): 1331-1340. |
[6] | 浦建宇,陈蕾,邵楷. 基于Katz增强归纳型矩阵补全的基因-疾病关联关系预测[J]. 计算机科学与探索, 2019, 13(7): 1154-1164. |
[7] | 赵倩,谢上钦,韩轲,龚青泽,冯光升,林俊宇. 远程直接内存访问与检查点相结合的容器迁移[J]. 计算机科学与探索, 2019, 13(12): 1995-2007. |
[8] | 吕小敬,刘钊,蒋令闻,陈德训,杨广文. 船舶三维声弹性模拟软件的并行优化策略[J]. 计算机科学与探索, 2019, 13(11): 1852-1863. |
[9] | 齐小刚,张碧雯,刘立芳,胡绍林. 复杂信息网络的弹性评估和优化方法研究[J]. 计算机科学与探索, 2018, 12(8): 1252-1262. |
[10] | 李勇,滕飞,黄齐川,李天瑞. 基于Spark的时间序列并行分解模型[J]. 计算机科学与探索, 2018, 12(7): 1055-1063. |
[11] | 裴树军,宋冬梅,孔德凯. Map/Reduce下快速剪枝算法在复杂任务调度中的应用[J]. 计算机科学与探索, 2018, 12(1): 72-81. |
[12] | 刘沛东,安博,钟业弘,王虎,曹东刚. 私有云环境下基于虚拟集群的资源共享方法[J]. 计算机科学与探索, 2017, 11(8): 1204-1213. |
[13] | 詹杭龙,曹东刚,谢冰. 分布共享环境下支持弹性伸缩的图处理框架[J]. 计算机科学与探索, 2016, 10(7): 901-914. |
[14] | 王虹旭,吴斌,刘旸. 基于Spark的并行图数据分析系统[J]. 计算机科学与探索, 2015, 9(9): 1066-1074. |
[15] | 宋宝燕,李雪城,任才,丁琳琳. 云环境下分层的中间数据容错方法[J]. 计算机科学与探索, 2015, 9(5): 546-554. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||