计算机科学与探索 ›› 2020, Vol. 14 ›› Issue (6): 958-965.DOI: 10.3778/j.issn.1673-9418.1906030
徐旭东,张志祥,张献
XU Xudong, ZHANG Zhixiang, ZHANG Xian
摘要:
报文聚类是协议逆向工程的主要步骤之一。针对私有二进制协议报文,目前的报文聚类方法存在报文向量化特征冗余的问题,而且传统聚类方法存在聚类中心和聚类簇数难以确定的问题。根据n-gram序列化的思想,构造报文的序列项-位置矩阵,从中挖掘频繁项,构造报文特征向量,有效去除了报文向量化中的序列噪声;采用轮廓系数指导分拆式层次聚类,避免了初始聚类簇数和聚类中心的选择,以实现无监督条件下的私有二进制协议报文的聚类。在AIS、DNS、ICMP、ARP四种协议共七类报文的数据集上测试,通过t-SNE可视化界面观察报文分布情况,特征向量化的方法具有很好的分布和特征表达效果;相较于传统的聚类方法,基于轮廓系数的分拆式层次聚类在纯净度和F1值上具有明显提升。