1 项目介绍[Project Introduction]

无参转录组分析主要用于在缺少参考基因组的情况下,获取样本中的转录组数据,用于样本、物种之间在转录本类型和转录水平的比较,进而挖掘这些转录本之后的生物学意义。

目前我们已经能够获取到大量物种的参考基因组,但相对于自然界的万千物种而言,参考基因组数据仍然不足,例如具有重要生态和演化意义的非模型生物、癌症样本、微生物组样本。由于基因组通常具有较大的体积且存在大量重复序列,目前而言,对基因组进行测序和组装仍然是非常昂贵的。

RNA-seq技术能够用于研究转录组的各个方面。其应用包括基因发现,可变剪接检测,差异表达分析,融合检测和SNP等变体的鉴定以及转录后编辑。 RNA-seq相对于诸如微阵列等较早的技术,优势之一是无需参考基因组和注释即可生成和分析数据,因此它可以对非模型生物进行转录组范围的分析。当没有参考基因组可用时,转录组直接从RNA-seq读数重新组装。转录组作为基因组总体序列的一小部分,RNA测序能够以较低成本为下游的分析和应用提供参考转录组。

1.1 无参转录组的主要应用[Main applications of nonparticipating transcriptome]

由于实验简单、价格低廉等因素,无参转录组分析获得了广泛的应用。无参转录组的主要应用包括:

  • 转录本水平研究

经过拼接获取样本中的转录组,捕获样本中基因的表达水平。并结合功能注释,为分子标记开发、物种演化研究等提供基础。

  • 差异转录组

研究同一物种表型有差异的mRNA序列,挖掘与表型相关的差异转录本结构。

  • 比较转录组

在演化研究中,通常会对基因组、转录组进行比较。但对于大多数生物类群,仅有较少的代表性物种具有基因组数据。通过无参拼接得到参考转录组,为此提供了技术基础。已被广泛应用于研究近缘物种间的亲缘关系以及不同物种或亚种间mRNA序列差异,挖掘明显受到正向选择或负向选择的基因等。

  • 辅助基因注释

若仅基于基因组测序数据,现有的基因预测软件很难准确地预测基因,借助转录组拼接可以促进复杂基因结构的预测,提高其准确性。

1.2 无参转录组的分析流程[De novo transcriptome assembly and analysis workflow]

常规组学分析中,一般依赖于基因组的序列和注释信息。无参分析经过拼接注释等过程获取参考转录本序列和注释,从而实现对参考基因组的替代。无参转录组的分析流程主要包括:转录本拼接、转录本注释、表达定量和下游分析。

测序所得的Reads数据是一些长度在几百bp的的短序列,具体长度取决于建库测序策略。在对原始测序进行质量检查和过滤后,依据这些较短的序列中的信息,经过拼接延伸聚类等过程,得到转录本序列。因为转录过程的复杂加工,在得到的拼接结果中,同一个基因可能对应多个转录本,且常会包含大量的非编码RNA、rRNA等。通常得到转录本序列之后,对这些转录本序列进行质控,以检测拼接过程的效果和可能存在的问题。常用的质控方法包括检查保守基因的完整度、和蛋白数据库进行比对评价拼接完整性、检查原始测序数据的回帖比率等。

经过拼接,我们能够得到转录本的序列信息,但这些转录本是否编码蛋白、编码的蛋白序列和功能都还未知,因而需要进行转录本的注释,包括开放阅读框(ORF)预测和功能注释。这一步的注释依赖于来自其它物种的蛋白功能、结构域注释数据,这些数据一般来自UniPort、Pfam等公共数据库。至此,我们就得到了目标物种的转录组序列和注释信息,可用于在其他下游分析中充当参考基因组。

基于拼接所得的参考转录组,我们能够进行基于表达量的样本比较、获取差异表达基因并进行功能概括。同时也能够进行变异分析(SNP、InDel)、鉴定简单重复序列(SRR)用于开发分子标记,以及用于比较转录组分析等其他分析技术。

图片来源