6 转录本功能注释[Functional Annotation of Transcripts]

方法[Method]

使用 Trinotate(v3.2.0)对拼接得到的转录本进行功能注释。
Transcriptome functional annotation was performed by Trinotate (v3.2.0).

Trinotate介绍

Trinotate是一个全面的注释套件,用于对模型生物或非模型生物的转录组进行自动化功能注释,特别是从头组装转录组。 Trinotate利用多种不同的有参方法进行功能注释,包括对已知序列数据进行同源搜索(BLAST,SwissProt),蛋白质结构域识别(HMMER,PFAM),蛋白质信号肽和跨膜结构域预测(signalP,tmHMM),以及利用各种注释数据库(eggNOG,GO,Kegg数据库)。从转录本分析获得的所有功能注释数据最终集成到SQLite数据库中,利用该数据库可以快速高效地搜索具所需要的特定质量评分的注释条目,也可以生成转录组的完整注释报告。
Trinotate is a comprehensive annotation suite designed for automatic functional annotation of transcriptomes, particularly de novo assembled transcriptomes, from model or non-model organisms. Trinotate makes use of a number of different well referenced methods for functional annotation including homology search to known sequence data (BLAST+/SwissProt), protein domain identification (HMMER/PFAM), protein signal peptide and transmembrane domain prediction (signalP/tmHMM), and leveraging various annotation databases (eggNOG/GO/Kegg databases). All functional annotation data derived from the analysis of transcripts is integrated into a SQLite database which allows fast efficient searching for terms with specific qualities related to a desired scientific hypothesis or a means to create a whole annotation report for a transcriptome.

6.1 转录本注释[Result of annotation]

功能注释数据: Function annotation

注释结果内容:

1 gene_id:基因编号,Trinity组装中的“基因”编号
2 transcript_id:转录本编号
3 sprot_Top_BLASTX_hit:UniProt数据库中的最佳核酸同源比对
4 RNAMMER:核糖体亚基RNA(rRNA)的预测,来自RNAmmmer
5 prot_id:蛋白编号
6 prot_coords:蛋白编码区在转录本中的对应位置
7 sprot_Top_BLASTP_hit:UniProt数据库中的最佳蛋白同源比对
8 custom_pombe_pep_BLASTX:依据其他自定义蛋白数据库BLASTX比对得到的注释
9 custom_pombe_pep_BLASTP:依据其他自定义蛋白数据库BLASTP比对得到的注释
10 Pfam:Pfam数据库结构域注释
11 SignalP:信号肽及切割位点注释SignalP
12 TmHMM:跨膜结构域注释TmHMM
13 eggnog:eggNOG功能注释
14 Kegg:KEGG注释,KEGG数据库KO词条
15 gene_ontology_blast:经同源比对得到的GO注释(gene ontology)
16 gene_ontology_pfam:经结构域检测获得的GO注释
17 transcript:转录本序列
18 peptide:蛋白序列

注:

为避免文件过大难以打开操作,注释文件中最后两列的转录本序列和蛋白序列为空;对应序列信息位于前述第二章(转录本)及第三章(蛋白)的序列文件




6.2 转录本聚类cluster注释[Function annotation of clusters]

拼接所得的“gene”是根据序列重复定义的较为宽松的概念,和真实的gene并不完全对应。上述注释文件中,“gene”的功能注释来自对转录本注释的汇总,为了在下游分析中进行有效的差异表达计算,以Corset工具对转录本进行了重新组织,以重组后的每个cluster代表一个基因(有关Corset处理的详细介绍见差异分析章节)。对应的,也对每个cluster进行了功能注释,同样来自转录本注释的汇总。与上述文件格式一致。

cluster功能注释数据:cluster annotation

cluster.null对应于所有在corset处理中被过滤删除的转录本,这些转录本大多对应于在所有样本中微量表达的拼接转录本,且可能来自错误拼接。