帮助中心

DNA测序-数据筛选

概述

根据数据分析和数据库的注释信息,GCBI提供从差异分析,变异对蛋白功能的影响,疾病,人群和自定义5个方面对变异位点进行筛选,详情如下。

差异筛选

显著性P值

根据变异位点在不同样本中的基因型差异,利用Fisher精确检验,找到case/control组间差异的突变位点,差异的P值越小,说明变异位点在两组间差异越显著,一般P<0.05,代表差异有统计学意义,如果差异的变异位点数量较多,可提高筛选条件。

突变样本占比

突变样本占比为分别统计变异位点在试验组(case)和对照组(control)中突变样本占组内样本的比例,值越大,代表组内发生突变的样本占比越高。

相对风险度OR

OR(odds ratio)为相对风险度,用来评价位点发生变异后,疾病的风险是增加还是降低,即是对相对危险度的精确估计值。

假定要标记的位点SNP有两个等位基因:记为Allele 1,Allele 2

Allele 1

Allele 2

病例

A

B

对照

C

D

odds值在病例组和对照组计算如下:

病例Odds = A (A + B)/ B (A + B) = A / B

对照Odds = C (C + D) / D (C + D) = C / D

OR值计算如下:

Odds Ratio = (A / B )/(C / D) = A D/ B C

OR值=1,表示该因素对疾病的发生不起作用

OR值大于1,表示该因素是一个危险因素,即位点发生变异后,患病风险因素增加

OR值小于1,表示该因素是一个保护因素,即位点发生变异后,患病风险因素降低

 

 小G提醒:筛选条件之间是交集关系。

蛋白功能筛选

变异对蛋白功能分类

根据变异位点在基因组上的位置和变异的功能类型,分3个等级:

  • High(影响大):stop gain,stop loss,splice5,splice3,framshift
  • Medium(影响中等):missense
  • Low(影响下或无影响):UTR5,UTR3,CDS,Intron,Intrgenic,ncRNA,precursor miRNA

High和Medium两种类型位点发生变异后,会改变变异位点对应的氨基酸,可能会影响蛋白的功能,所以一般建议用户选择HighMedium两类变异位点继续进一步分析,具体还需根据用户研究目的进行筛选。

预测变异对蛋白功能的影响

Sift和Polyphen算法主要用于预测非同义突变产生的氨基酸替换,是否会影响到蛋白质的功能,sift是基于同源蛋白保守性算法的预测原理,分值越大代表突变对蛋白功能影响越小,一般值大于 0.05 表示这个突变是可以容忍的(tolerated,score>0.05),小于等于 0.05 说明这个突变是有害的(deleterious, score <0.05)。Polyphen软件采用了Naïve Bayes的机器学习算法来评估氨基酸改变可能会影响蛋白的折叠,相互作用和对构象稳定性影响。得分越高,危害性越大,通常分为四类:很可能有害的(probably damaging),有可能有害的(possibly damaging),可能无害的(benign)和未知的(unknown)。

 

GCBI根据Sift和PolyPhen预测结果,将变异对蛋白功能的影响分4种类型:

  • 很可能有害的:SIFT预测结果为deleterious,polyphen预测结果为probably damaging
  • 可能有害的:SIFT预测结果为deleterious low confidence,polyphen预测结果为possibly damaging
  • 可能无害的:SIFT预测结果为tolerated或tolerated low confidence,polyphen预测结果为benign
  • 未知的:polyphen预测结果为unknown

 

一般建议选择很可能有害的可能有害的两大类继续进一步分析,具体还需根据研究目的进行选择。

 

同时用户可以自定义数据库,勾选两个数据库,代表取两种算法预测结果的交集,可以降低预测结果的假阳性率。

 

当分析结果较少时,可以选择“存在以上任意数据库”,即取两种算法预测结果的并集。用户可以根据实际结果进行设置。

 

参考文献:

  1. Kumar P, Henikoff S, Ng PC. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 2009;4(7):1073-81.
  2. Ng PC, Henikoff S. Predicting the Effects of Amino Acid Substitutions on Protein Function Annu Rev Genomics Hum Genet. 2006;7:61-80.
  3. Ng PC, Henikoff S. SIFT: predicting amino acid changes that affect protein function.Nucleic Acids Res. 2003 Jul 1;31(13):3812-4.
  4. Ng PC, Henikoff S. Accounting for Human Polymorphisms Predicted to Affect Protein Function. Genome Res. 2002 Mar;12(3):436-46.
  5. Ng PC, Henikoff S. Predicting Deleterious Amino Acid Substitutions. Genome Res.2001 May;11(5):863-74
  6. Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR. Nat Methods 7(4):248-249 (2010).
  7. Adzhubei I, Jordan DM, Sunyaev SR. Predicting functional effect of human missense mutations using PolyPhen-2. Curr Protoc Hum Genet, Chapter 7:Unit7.20 (2013).
  8. Ramensky V, Bork P, Sunyaev S. Human non-synonymous SNPs: server and survey. Nucleic Acids Res30(17):3894-3900 (2002).
  9. Sunyaev SR, Eisenhaber F, Rodchenkov IV, Eisenhaber B, Tumanyan VG, Kuznetsov EN. PSIC: profile extraction from sequence alignments with position-specific counts of independent observations. Protein Eng12(5):387-394 (1999).

疾病筛选

根据Clinvar数据库中对变异位点致病性的判断,我们将变异位点分为以下几种类型:

  • 致病的:Pathogenic
  • 可能致病的:Likely pathogenic
  • 药物反应:drug response(位点发生变异后可能会影响药物作用的效果)
  • 风险因素:risk factor (位点发生变异后可能会导致疾病风险变高)
  • 不确定:Uncertain significance
  • 可能无害的:Likely benign
  • 无害的:Benign

 

参考文献:

  1. Landrum MJ, Lee JM, Benson M, Brown G, Chao C, Chitipiralla S, Gu B, Hart J, Hoffman D, Hoover J, Jang W, Katz K, Ovetsky M, Riley G, Sethi A, Tully R, Villamarin-Salomon R, Rubinstein W, Maglott DR. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 2016 Jan 4;44(D1):D862-8. doi: 10.1093/nar/gkv1222.
  2. Landrum MJ, Lee JM, Riley GR, Jang W, Rubinstein WS, Church DM, Maglott DR. ClinVar: public archive of relationships among sequence variation and human phenotype. Nucleic Acids Res. 2014 Jan 1;42(1):D980-5. doi: 10.1093/nar/gkt1113
  3. Melissa Landrum, PhD, Jennifer Lee, PhD, George Riley, PhD, Wonhee Jang, PhD, Wendy Rubinstein, MD, PhD, Deanna Church, PhD, and Donna Maglott, PhD. ClinVar.http://www.ncbi.nlm.nih.gov/books/NBK174587/

人群筛选

公共人群数据库(1000Genome和Hapmap)

通过关联公共人群数据库中变异位点的等位基因频率,找到在正常人群中等位基因频率较高或较低的位点,一般分类如下:

  • Very rare:0-0.001
  • Rare:0-0.01 0.005:
  • Low Frequency:0-0.05:
  • Common:0.05-1

同时也可以直接在输入框中输入要筛选的取值范围。

中国人群

GCBI整合了1000Genome数据库中292个中国人的样本数据,分析得到在正常中国人群中等位基因的频率,通过对实测样本的变异位点进行过滤,从而使分析结果更有针对性。

自定义筛选

关注的基因/SNP

根据用户关注的变异位点或基因所对应的变异位点进行筛选。

变异位点重要性分类

根据已知的变异位点在基因组上的定位,预测变异位点对蛋白功能的影响程度以及与疾病的关联性,对变异位点进行重要性等级划分,一共分为5个等级:

  • very High
  • High
  • Medium
  • Low
  • very Low

一般挑选very High,High的位点进行进一步分析,等级分类的逻辑如下:

(1)

本文由 GCBI学院 作者:乞嘚咙咚呛咚呛 发表,转载请注明来源!

热评文章

发表评论