计算机科学与探索 ›› 2019, Vol. 13 ›› Issue (12): 2073-2084.DOI: 10.3778/j.issn.1673-9418.1901009
龙廷艳,万良,丁红卫
LONG Tingyan, WAN Liang, DING Hongwei
摘要: 针对传统机器学习特征提取方法很难发掘JavaScript恶意代码深层次本质特征的问题,提出基于堆栈式稀疏降噪自编码网络(sSDAN)的JavaScript恶意代码检测方法。首先将JavaScript恶意代码进行数值化处理,然后在自编码网络的基础上加入稀疏性限制,同时加入一定概率分布的噪声进行染噪的学习训练,使得自动编码器模型能够获取数据不同层次的特征表达;再经过无监督逐层贪婪的预训练和有监督的微调过程可以得到有效去噪后的更深层次特征;最后利用[Softmax]函数对特征进行分类。实验结果表明,稀疏降噪自编码分类算法对JavaScript具有较好的分类能力,其准确率高于传统机器学习模型,相比随机森林的方法提高了0.717%,相比支持向量机(SVM)的方法提高了2.237%。