计算机科学与探索 ›› 2016, Vol. 10 ›› Issue (2): 210-219.DOI: 10.3778/j.issn.1673-9418.1505045
张 礼+,刘学军,陈松灿
ZHANG Li+, LIU Xuejun, CHEN Songcan
摘要: 随着下一代高通量DNA测序的快速发展,RNA-Seq测序已成为转录组学分析的标准技术。在处理多样本RNA-Seq数据时,现有表达水平估计方法通常基于单个样本逐个处理,忽略了基因读段分布在样本间高度相似的特点。因此,提出了一个基于多样本RNA-Seq数据的表达水平估计方法,称为MRSeq。其关键是通过建立偏差曲线估计模型获得基因读段分布在样本之间的共享特征,通过偏差权重将共享特征嵌入到模型中,用来修正读段数据,同时通过增加稀疏约束来表现基因和异构体表达水平之间的稀疏性。进而将该模型应用到多个真实数据集进行评测,与目前主流方法的比较结果表明:MRSeq不仅能得到准确的基因和异构体表达水平,同时也获得了更有意义的生物解释。