概述
GCBI使用目前最新最高效的转录组分析流程(HISAT2+STRINGTIE+BALLGOWN),使用HISAT2方法将测序原始的fastq文件比对到Ensembl数据库中,根据STRINGTIE方法对序列进行组装和定量,得到转录本和基因在样本中的相对表达值,最后根据BALLGOWN算法或倍数法进行差异分析。与经典的Tophat, Cufflink的RNA-seq分析流程相比,新的分析流程在性能,效率,分析结果的准确性上都有很大的提升,在较短的时间内即可获得更准确的分析结果。
分析步骤
比对(HISAT2)
利用 HISAT2软件将reads比对到UCSC的hg38版本的人类标准基因组,结合Ensembl转录本数据库中的剪切位点,使用比对算法实现每条原始reads的最优比对。此外HISAT2的参考基因组的索引构建中综合利用了dbSNP数据库中的约12.3M的常见SNP位点以及使得整个比对率更高、比对效果更好。
排序
利用samtools将比对结果进行排序得到bam文件。
组装和定量
使用StringTie软件对每一条rna,用比对结果的reads碎片组装成真实长度的rna序列。在这个过程中,也考虑到各个剪切位点,参考数据库为Ensembl的GRCh38.84版本的转录本gtf文件。经过上述步骤,我们可以得到每个样本转录本的定量结果
质控
在上述步骤中同步进行质量分析,对样本进行质控结果的统计。
Reads length | reads的读长 |
Raw Reads | 原始测序数据的reads的总数 |
Raw Bases | 原始测序数据包含的碱基总数 |
GC | 原始测序数据中碱基G和C的数量总和占总碱基数量的百分比 |
Total Mapped Reads | 比对上的总reads数 |
Unique Mapped Reads | 在参考序列上有唯一比对位置的测序Reads |
Multiple Mapped Reads | 在参考序列上有多个比对位置的测序Reads |
Total Unmapped reads | 未比对上的总reads数 |
Q20 | 原始测序数据中Phred数值大于20的碱基占总体碱基的百分比 |
Q30 | 原始测序数据中Phred数值大于30的碱基占总体碱基的百分比 |
以Q30>80%作为质控合格的标准,对样本进行质控合格或不合格的判断。
差异分析
利用Ballgown软件进行差异分析。差异分析会依据不同样本的reads深度进行参数校正,从而得到基因层面与转录本层面更为合理的结果。
分析流程图
参考文献
[1] Kim D, Langmead B and Salzberg SL. HISAT: a fast spliced aligner with low memory requirements. Nature Methods 2015
[2] Pertea M, Kim D, Pertea G, Leek JT and Salzberg SL. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols 2016
[3] Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT & Salzberg SL. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads Nature Biotechnology 2015, doi:10.1038/nbt.3122
[4] Pertea M, Kim D, Pertea GM, Leek JT, Salzberg SL Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown, Nature Protocols 11, 1650-1667 (2016), doi:10.1038/nprot.2016.095
[5] Frazee AC, Pertea G, Jaffe AE, Langmead B, Salzberg SL, Leek JT Ballgown bridges the gap between transcriptome assembly and expression analysis. Nat Biotechnol. 2015 Mar;243-6. pii:nbt.3172. doi:10.1038/nbt.3172.
备注
RNA测序Demo样本信息
样本名称 | 组织 | 样本编号 | RUN | MBases | MBytes |
GCSAS-RNAseq-Control-Demo1 | Normal colon | SAMN03801448 | SRR4457115 | 7269 | 5753 |
GCSAS-RNAseq-Control-Demo2 | Normal colon | SAMN03801449 | SRR4457116 | 6792 | 4590 |
GCSAS-RNAseq-Control-Demo3 | Normal colon | SAMN03801450 | SRR4457117 | 6713 | 4730 |
GCSAS-RNAseq-Control-Demo4 | Normal colon | SAMN03801451 | SRR4457118 | 6700 | 4815 |
GCSAS-RNAseq-Control-Demo5 | Normal colon | SAMN03801452 | SRR4457119 | 6820 | 4754 |
GCSAS-RNAseq-Case-Demo6 | Primary colon cancer | SAMN03801453 | SRR4457120 | 7326 | 5508 |
GCSAS-RNAseq-Case-Demo7 | Primary colon cancer | SAMN03801454 | SRR4457121 | 7474 | 6043 |
GCSAS-RNAseq-Case-Demo8 | Primary colon cancer | SAMN03801455 | SRR4457122 | 6711 | 4761 |
GCSAS-RNAseq-Case-Demo9 | Primary colon cancer | SAMN03801456 | SRR4457123 | 6837 | 4916 |
GCSAS-RNAseq-Case-Demo10 | Primary colon cancer | SAMN03801457 | SRR4457124 | 6692 | 4973 |
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!