计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (8): 711-711.DOI: 10.3778/j.issn.1673-9418.2010.08.004
赵国毅;杨晓春+; 王 斌
ZHAO Guoyi; YANG Xiaochun+; WANG Bin
摘要: 对存在于网络信息、观测数据以及生物信息中的大量相似数据, 使用传统的压缩方法压缩不能达到更好的效果。对相似度很高的数据采用一种新的无损压缩方法, 即基础序列加上一组基于编辑距离的差异量来表示整个数据集, 可以只用很少的差异量来表示原本巨大的数据项。针对现实中数据不会整体相似的特点, 提出一种先聚类再压缩的思想, 在每个聚类中构造聚类中心作为虚拟基础序列, 使压缩比最大化。通过大量实际数据集的实验测试与分析, 表明提出的无损压缩技术对于相似序列数据具有很好的压缩比。
中图分类号: