4 转录本拼接[Assemble] | 极客基因生信分析报告（无参转录组拼接版本）

4.1 组装结果统计[Assembly result statistics]

根据reads中的序列重复,Trinity组建重叠群，这样的转录簇被宽泛的称为“基因”。每个gene可能对应多个转录本isoform。
Based on sequence repeats in reads, Trinity forms contigs. Such transcription clusters are broadly referred to as “genes.” Each gene may correspond to multiple isoforms.

拼接所得基因数量(Total trinity ‘genes’): 139188
拼接所得转录本数量(Total trinity transcripts):189471
拼接结果GC含量(Percent GC): 43.25

Reads经过拼接得到若干条序列。中间没有gap的一段连续序列称为contig；如果所得序列中间有已知长度的gap,则称为scaffold。
Reads are spliced to several sequences. A continuous sequence without gaps in it is called contig.If there is a gap of known length in the obtained sequence, it is called scaffold.

4.2 拼接转录本序列[Assembled transcript sequence]

组装转录本[Assembled Transcript] : Trinity.fasta
基因-Isoform对应关系[Map of Isoform to GENE] : gene_trans.map

4.3 转录本序列ID格式说明[Description transcript sequence ID]

组装转录本文件“Trinity.fasta”为组装后的转录本，举例如下：

>TRINITY_DN1000_c115_g5_i1 len=247 path=[31015:0-148 23018:149-246] AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACAC ACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGA AGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTC CAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGA TAAAGCA

序列名称TRINITY_DN1000_c115_g5_i1表示该转录本来自编号为“TRINITY_DN1000_c115”的Reads簇，gene “g5”，isoform “i1”，序列长度247。

4.4 转录本长度相关指标[Transcription length related indicators]

N50为反映拼接序列长度情况的常用指标。将所有序列按照长度降序排列，按排列顺序对序列长度进行加总，加总长度达到所有碱基数量50%时，最后一个被加总的片段长度即为N50。N10~N90同理。
N50 is a commonly used indicator to reflect the length of the splicing sequence. All fragment are arranged in descending order of length, and the sequence lengths are summed in the order of the arrangement. When the total length reaches 50% of the total number of bases, the length of the last aggregated fragment is N50. The same goes for N10 ~ N90.

以所有转录本进行统计[Stats based on ALL transcript contigs]:

Contig N10	4172
Contig N20	2846
Contig N30	2143
Contig N40	1621
Contig N50	1178
Median contig length	335
Average contig	674.77
Total assembled bases	127849154

以每个‘gene’中的最长转录本进行统计[Stats based on ONLY LONGEST ISOFORM per ‘GENE’]:

Contig N10	4172
Contig N20	2846
Contig N30	2143
Contig N40	1621
Contig N50	1178
Median contig length	335
Average contig	674.77
Total assembled bases	127849154

在从头拼接转录本中，因表达量较低以及测序错误等原因，会出现部分拼接不全或拼接错误的低质量的转录本，这些转录本通常表现为长度短，丰度低。这些低质量的转录本会直接影响N50指标，因而对转录本按照丰度进行从高到底排序，挑选转录水平较高的前百分之x进行N50统计(ExN50)，能够更好地反应转录本的长度状况，并且根据该指标能够初步判断测序数据量是否充足。