计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (8): 673-682.DOI: 10.3778/j.issn.1673-9418.2010.08.001
袁 磊1, 张 阳2+, 李 梅1, 李 雪3, 王 勇4
YUAN Lei1, ZHANG Yang2+, LI Mei1, LI Xue3, WANG Yong4
摘要: 在数据流管理系统(data stream management system, DSMS)中嵌入数据挖掘算法对数据库研究者是一项新的挑战, 而在数据流管理系统中嵌入快速决策树(very fast decision tree, VFDT), 尚未见报道。利用DSMS原有的机制在Esper中实现了VFDT算法。其主要思想是将VFDT算法转换为Esper的数据查询语言(Esper query language, EQL)。给出了在DSMS中实现VFDT算法的两种方法:普通方法。直接将VFDT算法转化为EQL语言并在DSMS中实现(记作DVFDT); 改进方法。通过Esper中固有的批量处理模式来实现(记作optimal-DVFDT)。通过一系列实验比较分析了两种方法对海量数据流分类的准确率和性能; 将提出的两种方法与用Java实现的VFDT算法(记作JVFDT)在分类精度和时间上进行比较。结果表明, 在DSMS中实现的VFDT算法具有较好的性能, 并且该算法对大规模数据流数据的子集同样具有较高的性能。
中图分类号: