F&Q

RNA测序-方法学说明

概述

GCBI使用目前最新最高效的转录组分析流程(HISAT2+STRINGTIE+BALLGOWN),使用HISAT2方法将测序原始的fastq文件比对到Ensembl数据库中,根据STRINGTIE方法对序列进行组装和定量,得到转录本和基因在样本中的相对表达值,最后根据BALLGOWN算法或倍数法进行差异分析。与经典的Tophat, Cufflink的RNA-seq分析流程相比,新的分析流程在性能,效率,分析结果的准确性上都有很大的提升,在较短的时间内即可获得更准确的分析结果。

分析步骤

比对(HISAT2)

利用 HISAT2软件将reads比对到UCSC的hg38版本的人类标准基因组,结合Ensembl转录本数据库中的剪切位点,使用比对算法实现每条原始reads的最优比对。此外HISAT2的参考基因组的索引构建中综合利用了dbSNP数据库中的约12.3M的常见SNP位点以及使得整个比对率更高、比对效果更好。

排序

利用samtools将比对结果进行排序得到bam文件。

组装和定量

使用StringTie软件对每一条rna,用比对结果的reads碎片组装成真实长度的rna序列。在这个过程中,也考虑到各个剪切位点,参考数据库为Ensembl的GRCh38.84版本的转录本gtf文件。经过上述步骤,我们可以得到每个样本转录本的定量结果

质控

在上述步骤中同步进行质量分析,对样本进行质控结果的统计。

Reads length reads的读长
Raw Reads 原始测序数据的reads的总数
Raw Bases 原始测序数据包含的碱基总数
GC 原始测序数据中碱基G和C的数量总和占总碱基数量的百分比
Total Mapped Reads 比对上的总reads数
Unique Mapped Reads 在参考序列上有唯一比对位置的测序Reads
Multiple Mapped Reads 在参考序列上有多个比对位置的测序Reads
Total Unmapped reads 未比对上的总reads数
Q20 原始测序数据中Phred数值大于20的碱基占总体碱基的百分比
Q30 原始测序数据中Phred数值大于30的碱基占总体碱基的百分比

以Q30>80%作为质控合格的标准,对样本进行质控合格或不合格的判断。

差异分析

利用Ballgown软件进行差异分析。差异分析会依据不同样本的reads深度进行参数校正,从而得到基因层面与转录本层面更为合理的结果。

分析流程图

 

参考文献

[1] Kim D, Langmead B and Salzberg SL. HISAT: a fast spliced aligner with low memory requirements. Nature Methods 2015

[2] Pertea M, Kim D, Pertea G, Leek JT and Salzberg SL. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols 2016

[3] Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT  & Salzberg SL. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads Nature Biotechnology 2015, doi:10.1038/nbt.3122

[4] Pertea M, Kim D, Pertea GM, Leek JT, Salzberg SL Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown, Nature Protocols 11, 1650-1667 (2016), doi:10.1038/nprot.2016.095

[5] Frazee AC, Pertea G, Jaffe AE, Langmead B, Salzberg SL, Leek JT Ballgown bridges the gap between transcriptome assembly and expression analysis. Nat Biotechnol. 2015 Mar;243-6. pii:nbt.3172. doi:10.1038/nbt.3172.

 

备注

RNA测序Demo样本信息

样本名称 组织 样本编号 RUN MBases MBytes
GCSAS-RNAseq-Control-Demo1 Normal colon SAMN03801448 SRR4457115 7269 5753
GCSAS-RNAseq-Control-Demo2 Normal colon SAMN03801449 SRR4457116 6792 4590
GCSAS-RNAseq-Control-Demo3 Normal colon SAMN03801450 SRR4457117 6713 4730
GCSAS-RNAseq-Control-Demo4 Normal colon SAMN03801451 SRR4457118 6700 4815
GCSAS-RNAseq-Control-Demo5 Normal colon SAMN03801452 SRR4457119 6820 4754
GCSAS-RNAseq-Case-Demo6 Primary colon cancer SAMN03801453 SRR4457120 7326 5508
GCSAS-RNAseq-Case-Demo7 Primary colon cancer SAMN03801454 SRR4457121 7474 6043
GCSAS-RNAseq-Case-Demo8 Primary colon cancer SAMN03801455 SRR4457122 6711 4761
GCSAS-RNAseq-Case-Demo9 Primary colon cancer SAMN03801456 SRR4457123 6837 4916
GCSAS-RNAseq-Case-Demo10 Primary colon cancer SAMN03801457 SRR4457124 6692 4973

 

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

热评文章

发表评论