测序的原始数据(raw_data)为fastq格式的压缩文件(*.fq.gz),为了得到较为可靠准确的变异分析结果,我们参考了当前的一些主流分析软件与方法(如文献[1,2]等),实施了一套基于比对、去重、过滤为基础的认证变异(Variant Calling)的分析过程。
采用推荐的bwa mem(参考文献[3,4,5])将原始的序列(测得的每条read)与标准基因组进行比对(由于采用并行处理,实际的比对结果可能与整个文件一起比对结果存在细微差别,但此处理对于分析质量几乎没有影响);
用elPrep[6]或Picard[7]进行重复标记(这部分冗余序列多为建库过程中PCR产生),再用samtools[8]进行去重与低比对质量reads过滤等;
采用bcftools[9.10,11]进行相应的snp与indel分析。
在上述步骤中同步进行质量分析,主要参考了fastqc[12]的分析内容,对样本进行质控结果的统计。
统计变量 | 含义 |
read length | 读长,单位bp |
raw reads | 原始读段数量,单位M |
raw bases | 原始数据量,单位G |
effective reads | 有效读段数量,单位M |
effective bases | 有效碱基数据量,单位G |
effective rate | 有效数据比例 |
mean depth | 平均测序深度 |
capture efficiency | 捕获效率 |
GC% | GC含量 |
Q20 | 测序质量大于20的碱基所占比例 |
Q30 | 测序质量大于30的碱基所占比例 |
以Q30>80%作为质控合格的标准,对样本进行质控合格或不合格的判断。
对变异位点关联17大权威数据库进行注释和统计,与GCBI知识库深度整合,提供相关疾病、文献等信息的快速查阅。
序号 |
数据库 |
简介 |
1 |
NCBI数据库中dbSNP子库 |
dbSNP(版本:v144)收录了所有物种中发现的短序列多态和突变信息,包括单核苷酸多态(SNP)、微卫星、小片段插入/删除多态等定位、侧翼序列和功能、频率信息。 |
2 |
NCBI数据库中Gene子库 |
基因数据库收录全部已测序物种的基因注释信息,包括基因的名称,染色体定位、基因编码产物(mRNA、蛋白质)情况、gene功能和相关文献信息等。 |
3 |
UCSC—Phastcons20way |
通过多个物种见的全基因序列比对获得保守元件,每个元件有相应的分值,分值范围在0~1000,分值越大表明元件越保守。 |
4 |
Ensembl数据库中SIFT子库 |
SIFT预测一个氨基酸替换是否影响蛋白质功能,SIFT是一个非常流行的非同义突变SNP的注释软件,可以用一个分值指定SNP的功能重要性,若分值大于0.05被认为是良性的变异。 |
5 |
Ensembl数据库中polyphen子库 |
polyphen预测一个氨基酸替换是否影响蛋白质功能,若分值大于0.85说明很可能是有害变异,若分值在0.15-0.85之间说明可能是有害变异,若分值小于0.15说明是良性的变异。 |
6 |
miRBASE数据库 |
miRBase(v21)序列数据库是一个提供包括miRNA序列数据、注释、预测基因靶标等信息的全方位数据库,是存储miRNA信息最主要的公共数据库之一。 |
7 |
TargetScan数据库 |
TargetScan是miRNA靶基因数据库,是通过搜索和每条miRNA种子区域匹配的保守的8mer和7mer位点来预测靶基因。 |
8 |
DGV数据库 |
DGV为“Database of Genomic Variants”的简称,目的是提供人类染色体结构变异的概况信息,数据库记录了一系列基因变异与表型相关的信息。 |
9 |
Ensembl数据库HapMap子库 |
HapMap是人类基因组中常见遗传多态位点的目录,它描述了这些变异的形式、在DNA上存在的位置、在同一群体内部和不同人群间的分布状况。 |
10 |
1000 Genomes Project数据库 |
国际千人基因组计划,由中、英、美、德等国科学家共同承担研究任务,旨在绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱. |
11 |
1000G(中国人群)数据库 |
以国际千人基因组计划为基础,旨在绘制迄今为止最详尽的、最有医学应用价值的中国人群的人类基因组遗传多态性图谱. |
12 |
GWAS数据库 |
GWAS(Genome-wide association study),即全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中发现了特定基因、单个DNA突变与疾病的关联。 |
13 |
OMIM数据库 |
OMIM 为“Online Mendelian Inheritance in Man”的简称,即“在线《人类孟德尔遗传》”,OMIM数据库包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料,并附有经缜密筛选的相关参考文献。 |
14 |
COSMIC数据库 |
COSMIC是一个体细胞突变数据库,这个数据库显示了体细胞突变信息、包括相关的人类癌症信息。 |
15 |
NCBI数据库中Clinvar子库 |
ClinVar数据库是一个标准的、可信的、稳定的遗传变异和人类健康关系数据库,临床显著性包括致病性、非致病性、可能致病性、可能非致病性等等。 |
16 |
HGMD数据库 |
人类基因突变数据库(The Human Gene Mutation Database ) ,由英国卡迪夫大学开发,是目前唯一的、最全面的人类遗传性疾病相关的核基因germ-line突变数据库,包括3500多种的基因,93000多种与遗传性疾病相关的突变和多态性数据。 |
17 |
TRANSFAC数据库 |
TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。 |
[1] Van der Auwera, G.A. et al. From FastQ data to high-confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr. Protoc. Bioinformatics, 43. (2013)
[2] Altmann A, Weber P, et al. A beginners guide to SNP calling from high-throughput DNA-sequencing data. Hum. Genet. 131:1541-1554. (2012)
[3] Heng Li & Richard Durbin. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics (2009).
[4] Li H. and Durbin R. (2010) Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics, 26, 589-595. [PMID: 20080505]. (if you use the BWA-SW algorithm)
[5] Li H. (2013) Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv:1303.3997v2 [q-bio.GN].
[6] Herzeel C, Costanza P, et al. elPrep: High-performance preparation of sequence alignment/map files for variant calling. PLOS one. (2015)
[7] http:// http://sourceforge.net/projects/picard/
[8] Li H.*, Handsaker B.*, Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9.
[9] Li Heng. Improving SNP discovery by base alignment quality. Bioinformatics, 27, 1157-1158. (2011)
[10] Li Heng. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics, 27, 2987-2993. (2011)
[11] Li Heng. Toward better understanding of artifacts in variant calling from high-coverage samples. Bioinformatics, 30, 2843-2851. (2014)
[12] http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!