帮助中心

DNA测序-方法学说明

概述

测序的原始数据(raw_data)为fastq格式的压缩文件(*.fq.gz),为了得到较为可靠准确的变异分析结果,我们参考了当前的一些主流分析软件与方法(如文献[1,2]等),实施了一套基于比对、去重、过滤为基础的认证变异(Variant Calling)的分析过程。

分析步骤

比对

采用推荐的bwa mem(参考文献[3,4,5])将原始的序列(测得的每条read)与标准基因组进行比对(由于采用并行处理,实际的比对结果可能与整个文件一起比对结果存在细微差别,但此处理对于分析质量几乎没有影响);

去重和过滤

用elPrep[6]或Picard[7]进行重复标记(这部分冗余序列多为建库过程中PCR产生),再用samtools[8]进行去重与低比对质量reads过滤等;

检测

采用bcftools[9.10,11]进行相应的snp与indel分析。

质控

在上述步骤中同步进行质量分析,主要参考了fastqc[12]的分析内容,对样本进行质控结果的统计。

 

统计变量 含义
read length 读长,单位bp
raw reads 原始读段数量,单位M
raw bases 原始数据量,单位G
effective reads 有效读段数量,单位M
effective bases 有效碱基数据量,单位G
effective rate 有效数据比例
mean depth 平均测序深度
capture efficiency 捕获效率
GC% GC含量
Q20 测序质量大于20的碱基所占比例
Q30 测序质量大于30的碱基所占比例

以Q30>80%作为质控合格的标准,对样本进行质控合格或不合格的判断。

注释

对变异位点关联17大权威数据库进行注释和统计,与GCBI知识库深度整合,提供相关疾病、文献等信息的快速查阅。

分析流程图

注释库

序号

数据库

简介

1

NCBI数据库中dbSNP子库

dbSNP(版本:v144)收录了所有物种中发现的短序列多态和突变信息,包括单核苷酸多态(SNP)、微卫星、小片段插入/删除多态等定位、侧翼序列和功能、频率信息。

2

NCBI数据库中Gene子库

基因数据库收录全部已测序物种的基因注释信息,包括基因的名称,染色体定位、基因编码产物(mRNA、蛋白质)情况、gene功能和相关文献信息等。

3

UCSC—Phastcons20way

通过多个物种见的全基因序列比对获得保守元件,每个元件有相应的分值,分值范围在0~1000,分值越大表明元件越保守。

4

Ensembl数据库中SIFT子库

SIFT预测一个氨基酸替换是否影响蛋白质功能,SIFT是一个非常流行的非同义突变SNP的注释软件,可以用一个分值指定SNP的功能重要性,若分值大于0.05被认为是良性的变异。

5

Ensembl数据库中polyphen子库

polyphen预测一个氨基酸替换是否影响蛋白质功能,若分值大于0.85说明很可能是有害变异,若分值在0.15-0.85之间说明可能是有害变异,若分值小于0.15说明是良性的变异。

6

miRBASE数据库

miRBase(v21)序列数据库是一个提供包括miRNA序列数据、注释、预测基因靶标等信息的全方位数据库,是存储miRNA信息最主要的公共数据库之一。

7

TargetScan数据库

TargetScan是miRNA靶基因数据库,是通过搜索和每条miRNA种子区域匹配的保守的8mer和7mer位点来预测靶基因。

8

DGV数据库

DGV为“Database of Genomic Variants”的简称,目的是提供人类染色体结构变异的概况信息,数据库记录了一系列基因变异与表型相关的信息。

9

Ensembl数据库HapMap子库

HapMap是人类基因组中常见遗传多态位点的目录,它描述了这些变异的形式、在DNA上存在的位置、在同一群体内部和不同人群间的分布状况。

10

1000 Genomes Project数据库

国际千人基因组计划,由中、英、美、德等国科学家共同承担研究任务,旨在绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱.

11

1000G(中国人群)数据库

以国际千人基因组计划为基础,旨在绘制迄今为止最详尽的、最有医学应用价值的中国人群的人类基因组遗传多态性图谱.

12

GWAS数据库

GWAS(Genome-wide association study),即全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中发现了特定基因、单个DNA突变与疾病的关联。

13

OMIM数据库

OMIM 为“Online Mendelian Inheritance in Man”的简称,即“在线《人类孟德尔遗传》”,OMIM数据库包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料,并附有经缜密筛选的相关参考文献。

14

COSMIC数据库

COSMIC是一个体细胞突变数据库,这个数据库显示了体细胞突变信息、包括相关的人类癌症信息。

15

NCBI数据库中Clinvar子库

ClinVar数据库是一个标准的、可信的、稳定的遗传变异和人类健康关系数据库,临床显著性包括致病性、非致病性、可能致病性、可能非致病性等等。

16

HGMD数据库

人类基因突变数据库(The Human Gene Mutation Database ) ,由英国卡迪夫大学开发,是目前唯一的、最全面的人类遗传性疾病相关的核基因germ-line突变数据库,包括3500多种的基因,93000多种与遗传性疾病相关的突变和多态性数据。

17

TRANSFAC数据库

TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。

参考文献

[1] Van der Auwera, G.A. et al. From FastQ data to high-confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr. Protoc. Bioinformatics, 43. (2013)

[2] Altmann A, Weber P, et al. A beginners guide to SNP calling from high-throughput DNA-sequencing data. Hum. Genet. 131:1541-1554. (2012)

[3] Heng Li & Richard Durbin. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics (2009).

[4] Li H. and Durbin R. (2010) Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics, 26, 589-595. [PMID: 20080505]. (if you use the BWA-SW algorithm)

[5] Li H. (2013) Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv:1303.3997v2 [q-bio.GN].

[6] Herzeel C, Costanza P, et al. elPrep: High-performance preparation of sequence alignment/map files for variant calling. PLOS one. (2015)

[7] http:// http://sourceforge.net/projects/picard/

[8] Li H.*, Handsaker B.*, Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9.

[9] Li Heng. Improving SNP discovery by base alignment quality. Bioinformatics, 27, 1157-1158. (2011)

[10] Li Heng. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics, 27, 2987-2993. (2011)

[11] Li Heng. Toward better understanding of artifacts in variant calling from high-coverage samples. Bioinformatics, 30, 2843-2851. (2014)

[12] http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

热评文章

发表评论