DNA测序-方法学说明

其明技术专家帮助中心, 测序数据分析 2017年2月28日

1.74W 0 0

概述

测序的原始数据(raw_data)为fastq格式的压缩文件(*.fq.gz)，为了得到较为可靠准确的变异分析结果，我们参考了当前的一些主流分析软件与方法(如文献^[1,2]等)，实施了一套基于比对、去重、过滤为基础的认证变异(Variant Calling)的分析过程。

分析步骤

比对

采用推荐的bwa mem(参考文献^[3,4,5])将原始的序列(测得的每条read)与标准基因组进行比对(由于采用并行处理，实际的比对结果可能与整个文件一起比对结果存在细微差别，但此处理对于分析质量几乎没有影响);

去重和过滤

用elPrep^[6]或Picard^[7]进行重复标记(这部分冗余序列多为建库过程中PCR产生)，再用samtools^[8]进行去重与低比对质量reads过滤等;

检测

采用bcftools^[9.10,11]进行相应的snp与indel分析。

质控

在上述步骤中同步进行质量分析，主要参考了fastqc^[12]的分析内容，对样本进行质控结果的统计。

统计变量	含义
read length	读长，单位bp
raw reads	原始读段数量，单位M
raw bases	原始数据量，单位G
effective reads	有效读段数量，单位M
effective bases	有效碱基数据量，单位G
effective rate	有效数据比例
mean depth	平均测序深度
capture efficiency	捕获效率
GC%	GC含量
Q20	测序质量大于20的碱基所占比例
Q30	测序质量大于30的碱基所占比例

以Q30>80%作为质控合格的标准，对样本进行质控合格或不合格的判断。

注释

对变异位点关联17大权威数据库进行注释和统计，与GCBI知识库深度整合，提供相关疾病、文献等信息的快速查阅。

分析流程图

注释库

序号	数据库	简介
1	NCBI数据库中dbSNP子库	dbSNP（版本：v144）收录了所有物种中发现的短序列多态和突变信息，包括单核苷酸多态（SNP）、微卫星、小片段插入/删除多态等定位、侧翼序列和功能、频率信息。
2	NCBI数据库中Gene子库	基因数据库收录全部已测序物种的基因注释信息，包括基因的名称，染色体定位、基因编码产物（mRNA、蛋白质）情况、gene功能和相关文献信息等。
3	UCSC—Phastcons20way	通过多个物种见的全基因序列比对获得保守元件，每个元件有相应的分值，分值范围在0~1000，分值越大表明元件越保守。
4	Ensembl数据库中SIFT子库	SIFT预测一个氨基酸替换是否影响蛋白质功能，SIFT是一个非常流行的非同义突变SNP的注释软件，可以用一个分值指定SNP的功能重要性，若分值大于0.05被认为是良性的变异。
5	Ensembl数据库中polyphen子库	polyphen预测一个氨基酸替换是否影响蛋白质功能，若分值大于0.85说明很可能是有害变异，若分值在0.15-0.85之间说明可能是有害变异，若分值小于0.15说明是良性的变异。
6	miRBASE数据库	miRBase(v21)序列数据库是一个提供包括miRNA序列数据、注释、预测基因靶标等信息的全方位数据库，是存储miRNA信息最主要的公共数据库之一。
7	TargetScan数据库	TargetScan是miRNA靶基因数据库，是通过搜索和每条miRNA种子区域匹配的保守的8mer和7mer位点来预测靶基因。
8	DGV数据库	DGV为“Database of Genomic Variants”的简称，目的是提供人类染色体结构变异的概况信息，数据库记录了一系列基因变异与表型相关的信息。
9	Ensembl数据库HapMap子库	HapMap是人类基因组中常见遗传多态位点的目录，它描述了这些变异的形式、在DNA上存在的位置、在同一群体内部和不同人群间的分布状况。
10	1000 Genomes Project数据库	国际千人基因组计划，由中、英、美、德等国科学家共同承担研究任务，旨在绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱.
11	1000G（中国人群）数据库	以国际千人基因组计划为基础，旨在绘制迄今为止最详尽的、最有医学应用价值的中国人群的人类基因组遗传多态性图谱.
12	GWAS数据库	GWAS（Genome-wide association study），即全基因组关联分析，是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性（SNP），从中发现了特定基因、单个DNA突变与疾病的关联。
13	OMIM数据库	OMIM 为“Online Mendelian Inheritance in Man”的简称，即“在线《人类孟德尔遗传》”，OMIM数据库包括所有已知的遗传病、遗传决定的性状及其基因，除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外，还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料，并附有经缜密筛选的相关参考文献。
14	COSMIC数据库	COSMIC是一个体细胞突变数据库，这个数据库显示了体细胞突变信息、包括相关的人类癌症信息。
15	NCBI数据库中Clinvar子库	ClinVar数据库是一个标准的、可信的、稳定的遗传变异和人类健康关系数据库，临床显著性包括致病性、非致病性、可能致病性、可能非致病性等等。
16	HGMD数据库	人类基因突变数据库（The Human Gene Mutation Database ) ，由英国卡迪夫大学开发，是目前唯一的、最全面的人类遗传性疾病相关的核基因germ-line突变数据库，包括3500多种的基因，93000多种与遗传性疾病相关的突变和多态性数据。
17	TRANSFAC数据库	TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。

参考文献

[1] Van der Auwera, G.A. et al. From FastQ data to high-confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr. Protoc. Bioinformatics, 43. (2013)

[2] Altmann A, Weber P, et al. A beginners guide to SNP calling from high-throughput DNA-sequencing data. Hum. Genet. 131:1541-1554. (2012)

[3] Heng Li & Richard Durbin. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics (2009).

[4] Li H. and Durbin R. (2010) Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics, 26, 589-595. [PMID: 20080505]. (if you use the BWA-SW algorithm)

[5] Li H. (2013) Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv:1303.3997v2 [q-bio.GN].

[6] Herzeel C, Costanza P, et al. elPrep: High-performance preparation of sequence alignment/map files for variant calling. PLOS one. (2015)

[7] http:// http://sourceforge.net/projects/picard/

[8] Li H.*, Handsaker B.*, Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9.

[9] Li Heng. Improving SNP discovery by base alignment quality. Bioinformatics, 27, 1157-1158. (2011)

[10] Li Heng. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics, 27, 2987-2993. (2011)

[11] Li Heng. Toward better understanding of artifacts in variant calling from high-coverage samples. Bioinformatics, 30, 2843-2851. (2014)

[12] http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

本文由 GCBI学院作者：其明技术专家发表，转载请注明来源！

帮助中心

DNA测序-方法学说明

概述

分析步骤

比对

去重和过滤

检测

质控

注释

分析流程图

注释库

参考文献

其明技术专家

相关文章

序数据上传

测序产品说明

RNA测序-数据筛选

热评文章

最赞的文章

发表评论取消回复

帮助中心

概述

分析步骤

比对

去重和过滤

检测

质控

注释

分析流程图

注释库

参考文献

其明技术专家

相关文章

序数据上传

测序产品说明

RNA测序-数据筛选

热评文章

最赞的文章

发表评论 取消回复

发表评论取消回复