计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (12): 1139-1152.
• 学术研究 • 上一篇
赵 理, 王 磊
ZHAO Li, WANG Lei
摘要:
目前常见的最近邻分类规则约减算法, 只注重约减后分类器的分类精度和被约减的规则数量, 而不注重约减效率和约减后分类器的泛化能力。针对该问题, 提出了一种细胞自动机(cellular automata, CA)基础上的最近邻分类规则约减方法。该方法只保留不同类边界上的样本点, 约减规则的数量可以由细胞自动机网格的粒度动态调节。其优势在于: 在给定的大数据集前提下, 可以利用较少的运行时间来约减给定的规则样本; 可以利用积累或迭代的方式来分步获得原给定样本集的一致性子集。采用13个不同的数据集进行仿真实验, 结果显示该算法简单、有效, 较好地解决了大样本集的约减问题。