计算机科学与探索 ›› 2008, Vol. 2 ›› Issue (1): 77-96.
朱扬勇1,2+,熊 赟1
ZHU Yangyong1,2+, XIONG Yun1
摘要: 生物序列数据的表达和存储是生物序列数据处理的关键。当前的数据库管理系统不能有效地支持生物序列数据类型和操作,人们不得不用文本数据类型或直接使用文本文件存储生物序列数据。这种状况造成了生物序列比对、模式发现等数据处理的低效率。研究了生物序列数据的特征,分析并归纳了用户对生物序列数据的查询需求,提出了一个新的生物序列数据模型BioSeg。BioSeg模型由描述部分和多维数组组成,描述部分表示生物序列注释和其他相关信息,多维数组表示具体序列(如DNA序列“ATCCCGTA”)。BioSeg模型提供了实现生物序列数据查询的代数操作。相对于生物序列数据的文本存储方式,BioSeg模型提供的数据查询具有良好的效率和灵活性。