计算机科学与探索 ›› 2015, Vol. 9 ›› Issue (11): 1281-1294.DOI: 10.3778/j.issn.1673-9418.1503036
刘志强1,2+,顾 荣1,2,袁春风1,2,3,黄宜华1,2,3
LIU Zhiqiang1,2+, GU Rong1,2, YUAN Chunfeng1,2,3, HUANG Yihua1,2,3
摘要: 近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为SparkR的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于SparkR设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于SparkR的并行化分类算法与Hadoop MapReduce的方案相比,速度上提升了8倍左右。