面向相似数据的无损压缩技术*

doi:10.3778/j.issn.1673-9418.2010.08.004

计算机科学与探索 ›› 2010, Vol. 4 ›› Issue (8): 711-711.DOI: 10.3778/j.issn.1673-9418.2010.08.004

面向相似数据的无损压缩技术*

赵国毅;杨晓春⁺; 王斌

东北大学信息科学与工程学院, 沈阳 110819

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-08-10 发布日期:2010-08-10
通讯作者: 杨晓春

A Lossless Compression Technique for Similar Data*

ZHAO Guoyi; YANG Xiaochun⁺; WANG Bin

College of Information Science and Engineering, Northeastern University, Shenyang 110819, China

Received:1900-01-01 Revised:1900-01-01 Online:2010-08-10 Published:2010-08-10
Contact: YANG Xiaochun

摘要/Abstract

摘要： 对存在于网络信息、观测数据以及生物信息中的大量相似数据, 使用传统的压缩方法压缩不能达到更好的效果。对相似度很高的数据采用一种新的无损压缩方法, 即基础序列加上一组基于编辑距离的差异量来表示整个数据集, 可以只用很少的差异量来表示原本巨大的数据项。针对现实中数据不会整体相似的特点, 提出一种先聚类再压缩的思想, 在每个聚类中构造聚类中心作为虚拟基础序列, 使压缩比最大化。通过大量实际数据集的实验测试与分析, 表明提出的无损压缩技术对于相似序列数据具有很好的压缩比。

关键词: 无损压缩, 差异量表示, 编辑距离, 聚类, 基础序列

Abstract: As to tremendous similarity data in network information, observation data and biological information, using traditional compression methods cannot get better compression effect. A new lossless compression is proposed using base sequence and a group of variants with edit distance to express the whole dataset. Because real similar data have an overall similarity, a first clustering and then compressing method is presented. In each cluster, construct a virtual base sequence to make a largest compression ratio. A large number of experimental tests and analyses on real datasets show that the proposed lossless compression technique can achieve good compression ratio.

Key words: lossless compression, variant expression, edit distance, cluster, base sequence

中图分类号:

TP311.131

赵国毅;杨晓春+ ; 王斌 . 面向相似数据的无损压缩技术*[J]. 计算机科学与探索, 2010, 4(8): 711-711.

ZHAO Guoyi; YANG Xiaochun⁺; WANG Bin

. A Lossless Compression Technique for Similar Data*[J]. Journal of Frontiers of Computer Science and Technology, 2010, 4(8): 711-711.

[1]	陈俊芬, 张明, 赵佳成, 谢博鋆, 李艳. 结合降噪和自注意力的深度聚类算法[J]. 计算机科学与探索, 2021, 15(9): 1717-1727.
[2]	王大刚, 丁世飞, 钟锦. 基于二阶[k]近邻的密度峰值聚类算法研究[J]. 计算机科学与探索, 2021, 15(8): 1490-1500.
[3]	沈学利, 秦鑫宇. 密度Canopy的增强聚类与深度特征的KNN算法[J]. 计算机科学与探索, 2021, 15(7): 1289-1301.
[4]	范瑞东, 侯臣平. 鲁棒自加权的多视图子空间聚类[J]. 计算机科学与探索, 2021, 15(6): 1062-1073.
[5]	柏锷湘, 罗可, 罗潇. 结合自然和共享最近邻的密度峰值聚类算法[J]. 计算机科学与探索, 2021, 15(5): 931-940.
[6]	张倪妮, 葛洪伟. 稳定的K-多均值聚类算法[J]. 计算机科学与探索, 2021, 15(5): 941-948.
[7]	马瑞强, 宋宝燕, 丁琳琳, 王俊陆. 面向时间序列事件的动态矩阵聚类方法[J]. 计算机科学与探索, 2021, 15(3): 468-477.
[8]	薛红艳, 钱雪忠, 周世兵. 超簇加权的集成聚类算法[J]. 计算机科学与探索, 2021, 15(12): 2362-2373.
[9]	张培, 祝恩, 蔡志平. 单步划分融合多视图子空间聚类算法[J]. 计算机科学与探索, 2021, 15(12): 2413-2420.
[10]	姚晓红, 黄恒君. 非负半监督函数型聚类方法[J]. 计算机科学与探索, 2021, 15(12): 2438-2448.
[11]	刘娟, 万静. 自然反向最近邻优化的密度峰值聚类算法[J]. 计算机科学与探索, 2021, 15(10): 1888-1899.
[12]	尤坊州, 白亮. 关键节点选择的快速图聚类算法[J]. 计算机科学与探索, 2021, 15(10): 1930-1937.
[13]	黄宇翔, 黄栋, 王昌栋, 赖剑煌. 基于集成学习的改进深度嵌入聚类算法[J]. 计算机科学与探索, 2021, 15(10): 1949-1957.
[14]	屈晶晶, 蔡英, 范艳芳, 夏红科. 基于k-prototype聚类的差分隐私混合数据发布算法[J]. 计算机科学与探索, 2021, 15(1): 109-118.
[15]	范虹，史肖敏，姚若侠. 头脑风暴算法优化的乳腺MR图像软子空间聚类算法[J]. 计算机科学与探索, 2020, 14(8): 1348-1357.

面向相似数据的无损压缩技术*

A Lossless Compression Technique for Similar Data*

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics