计算机科学与探索 ›› 2017, Vol. 11 ›› Issue (10): 1557-1569.DOI: 10.3778/j.issn.1673-9418.1609010
杨 杰1+,杨 虎1,王鲁滨1,金 鑫1,郭 华2,于亮亮3
YANG Jie1+, YANG Hu1, WANG Lubin1, JIN Xin1, GUO Hua2, YU Liangliang3
摘要: 研究了高维相关性缺失数据的填补方法,提出了分块填补算法。该算法核心思想是:在填补数据的过程中会考虑变量之间的相互关系,仅利用与待填补数据有相关性的数据进行填补,从而降低不相关数据对缺失数据填补的影响,提高数据填补的准确度。同时,该算法能够并行处理缺失数据,从而提高数据填补效率,对于高维缺失数据的填补有重要意义。为了对分块情况未知的缺失数据进行分块,提出了基于k-means聚类的分块算法。大量的仿真实验和基于真实数据集的实验表明,对于相关性数据,分块填补算法能够有效地利用相关信息进行填补,从而提高数据填补准确度。