基础科研

差异基因筛选方法

大家拿到基因数据,一头雾水不知如何下手,别急,咱们从差异基因筛选开始,一步步掀开数据分析的那层神秘面纱!

本文特别感谢GCBI算法工程师Doctor Wang的倾情解答!

对于基因的差异表达分析,能够发现一组在正常样本和患病样本中表达不同的基因,这为生物工作者进行实验验证提供了较好的候选基因。

通常的检测是对两种不同实验条件下的差异基因表达的问题进行模式化,一种检验对应一种基因,如果基因的表达值是零假设,那么它是无差异的。差异基因的筛选方法有很多,最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值,确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。另外还有些方法包括统计学的T检验法和SAM等方法。

 

倍数变化法

倍数变化法(Fold change),计算患病组和正常组的表达值的差异倍数,是用于检测差异表达基因的最基本的方法,由于其简单,易理解和不错的实验结果,使得其成为差异表达直观分析的首要选择。整体而言,Fold Change 方法在探测差异表达基因时,能够直接的得到差异变化值,因此在与差异表达绝对值相关的研究时具有优势。但是其较难选定其所需的阈值,在缺少假阳性的控制的情况下,其检测的基因假阳性结果比率相对较高。

T检验法

T-test 检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。由于芯片实验成本较高,样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。

SAM算法

SAM算法就是通过控制FDR值纠正多重假设检验中的假阳性率。SAM 方法检验差异表达,通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率。根据文献记载,相比较其他算法,SAM算法更为稳定,筛选出的结果也更为准确。SAM方法以q-value< 0.05作为筛选差异表达基因的标准,从公式上来看,p-value和q-value较为相似,而差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因的假阳性率(p-value较小)可能会较大,而q-value和FDR值较常见的BH校正方法得到的FDR值而言,改进了其对假阳性估计的保守性。

其实什么算法、软件好烦人,还是GCBI简单方便,导入数据-设置参数-运行,分分钟拿到结果。

GCBI 在线实验室分析网址:https://www.gcbi.com.cn/gclab/html/index芯片数据和测序数据皆可分析。

GCBI 在线实验室分析教程:http://college.gcbi.com.cn/helpme

为了得到可验证性的高质量差异结果,GCBI 实验室推荐每个分组(Each Group)的样本数不少于3,当样本重复数少于3个使用倍数法,样本重复数大于等于3使用SAM法。

前方高能请注意

1、如何设置参数?

答:在GCBI进行差异筛选,通过选择(q-value/差异倍数、差异数量)和设置差异参数,筛选样本中的差异基因。

(1) q-value越高,筛选出差异基因越多。q-value=0.05认为结果良好,可根据具体情况适当调整。

(2) 差异倍数常用:1.2、1.5、2,其中1.5最常用。

2、为什么GCBI采用q-value过滤差异结果?q-value较FDR有哪些好处?

答:差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因(p-value 较小)的假阳性率可能会较大,而我们期望得到具有高可验证性的合适数量的差异结果,那么q-value或FDR更合适于用来过滤差异结果。FDR值与q-value都是用来衡量多重检验中的误判率的,而q-value较常见的BH校正方法得到的FDR值而言,改进了其对假阳性估计的保守性,即q-value一般会较FDR更低,从而提高了部分差异分析的可行性。

3、差异基因数量太多或太少,怎么办?

答:可以在适当范围内调整参数设定,可参考下一个问题。

4、当q-value大于0.05还有意义吗?

答:从q-value的定义与意义可知,q-value衡量地是某个基因假阳性的概率。显然如果q-value越低,那么挑选该基因出现假阳性的概率就越低,可验证性就越高。也就是说q-value从概率的角度对差异的结果进行了一个整体的可验证性判断,所以在差异很大的情形下,我们可以适当地减小q-value的过滤阈值,而在差异较小的情况下,我们完全可以适当增大q-value的过滤阈值。对于差异较小的情况,q-value大于0.05仍然具有意义,如q-value=0.3,就是说这个基因30%的可能性出现假阳性,即它的可验证性的概率(70%)仍然远高于不可验证性(30%)。

5、为什么有些差异分析结果中的q-value全部相等?

答:说明差异结果从假阳性方面看具有一致性,即使存在某些基因的p-value较小,但是其假阳性的概率与其他基因一致,就是说其验证差异的风险几乎相同。如果结果的q-value较大,那么说明输入的基因数据整体的差异不大,这种情形我们推荐采用合适的差异基因总数(即控制Rank值或d Score值)或者控制q-value来得到期望的可行性结果;如果得到的q-value较小,说明差异较大,可以通过更加严格的q-value或者差异倍数过滤来得到合理的差异结果。

6、为什么有时候通过调整q-value进行差异基因过滤,而差异结果没有变化?

答: 一般来讲,我们首先建议用户对默认参数的结果进行查看(通过数据栏查看),通过对结果的预览做到“心中有数”,然后有针对性的进行q-value调整或差异总数的调整。举例来讲,如q-value变化区间较大时,通过微调可能就达不到预期结果;如果q-value全部相等(见Q5),那么过前端调整q-value的方法来过滤基因将不再会有效果。

7、基因差异倍数大于2才是有意义的?

答:对于1vs1样本,差异倍数大于2是一个较好的先验选择,但仍然不满足部分差异过大结果的分析要求。在样本数较多的条件下,判断一个基因是否有差异,不单单是通过差异倍数来判断,而是结合其他统计学参数(如p-value、q-value)来判断。

8、为什么Gene Symbol的有些单元格时空白的?

答:因为这段序列在NCBI上是没有正式基因名,可以通过查找结果中的Accession列中的编号,来得到该序列的信息。

(2)

本文由 GCBI学院 作者:Lina 发表,转载请注明来源!

热评文章

发表评论