数据分析

教你如何做趋势分析

在实验的设计中,我们经常需要了解基因随时间,温度,药物浓度等变化的表达趋势。当生物体按照一定顺序发生变化或者受到外界环境刺激(如受到不同浓度的化学药物诱导)时,基因表达变化也会呈现趋势特征。
 
趋势分析
趋势分析(STC, Series Test of Cluster)就是发现基因表达的趋势特征,将相同变化特征的基因集中在一种变化趋势中,从而找到实验变化过程中最具有代表性的基因群,揭示生物样本在变化过程中所特有的规律。
 
应用场景举例
观察基因随时间的变化是趋势性分析应用较多的场景,下面我们就以此来看看趋势性分析的具体应用。
Genes related to the very early stage of ConA-induced fulminant hepatitis: a gene-chip-based study in a mouse model
相关基因:ACSL1MPDZ          相关疾病: Liver Failure
样本编号:GSE17184     PMID: 20398290           IF:3.867
这篇文章主要研究爆发性肝炎在早期阶段的病理机制,研究目的在于寻找病变过程中起主导作用的基因群及关键基因。作者采用ConA 诱导的小鼠肝炎模型,选取了0h,1h,3h,6h四个时间点做表达谱分析,用ANOVA筛选得到了1473个差异表达基因(p<0.05,FDR<0.05)。
为进一步筛选出显著变化的基因群,作者用趋势分析将差异基因的表达趋势进行了分门别类,从中得到了10个显著变化的趋势模型(p<0.05)
               图1 小鼠肝炎随时间变化的26个趋势模型,有颜色的代表显著的趋势模型(p<0.05),无颜色的代表不显著,相同颜色代表相似性的表达趋势
并在最显著变化的NO.9和NO.16趋势模型中,用基因共表达网络分析得到了26个核心基因,这些核心基因主要作用于蛋白转运、转录调节、细胞代谢方面。筛选出的核心基因为爆发性肝癌的早期诊断提供了分子依据。
                                                                                                           图2 NO.9和NO.16趋势模型中基因的表达情况
趋势分析结果解析
上文作者在做爆发性肝癌的病理机制的研究中,通过趋势性分析来寻找病变过程中起主导作用的基因群。那上述的趋势模型图具体怎么看呢?完整的趋势分析结果是怎么的呢?
用上述文献中的样本GSE17184GCBI在线实验室进行趋势分析,具体方案如下,0,1,3,6为时间分组,先对数据进行差异分析(P值<0.01 Q值<0.05),得到了9409个差异基因,再对差异基因进行趋势性分析(详细操作见趋势分析方法)。
                                                                                                              图3 趋势分析方案图(数据GSE17184)
趋势模型总图
趋势分析得到的26个趋势模型(亦称为profile)中,筛选得到12个显著性profile(红色部分),最显著的两个分别为profile10和profile17,profile10和17都在1时无明显变化,随后开始下调/上调。
                                                                                                                              图4 GSE17184趋势模型总图
四个时间点为何是26种趋势模型?如何将表达基因匹配到趋势模型中?又如何判断趋势模型的显著性?答案请戳趋势分析方法论
如何看表达趋势模型呢?选取profile10作为示例。
                                                                                                                      图5 趋势总图中profile 10
图的正上方,显示趋势模型编号及P值。横坐标表示样本顺序,0、1、2、3分别对应时间点0h,1h,3h,6h。纵坐标表示基因表达变化幅度,正负号表示上下调。
Profile 10的趋势模型可归纳为(0,0,-1,-2)。(为什么趋势线都是都从0点开始呢?见下文)。
单个趋势图
趋势总图中的每个profile都对应有各自基因的趋势图。profile10的基因趋势图如下图所示。
                                                                                                                        图6 单个趋势模型
图的上方(0,0,-1,-2)对应趋势总图中的趋势模型。横坐标表示时间相,纵坐标表示表达变化幅度 log2(V(i)/V(0)),V(i)表示某相的表达值,V(0)表示0点的表达值。这就是为什么趋势线都是从零开始的。每条折线代表样本中的一个基因。
 
STC分析结果的详细信息可参见表格。
趋势模型总表
趋势总表中罗列了所有显著性趋势模型,红框中的参数表示基因在每个点变化幅度,绿框中为统计检验参数。 genes assigned表示在每个趋势模型中的基因个数,gene expected表示置换基因样本顺序分配在这个趋势模型中的基因个数,由此来检验某个趋势模型是否具有统计显著性意义。黄框里是每个趋势模型的基因列表。
单个趋势模型列表
单个趋势模型列表罗列了每个profile中基因在每个时刻点的具体数值。
STC-GO
在趋势分析中,可通过STC-GO进一步对显著趋势模型中的基因做GO功能分析,看基因群主要集中在哪些功能通路。上图profile10中的基因GO功能分析如下图所示,富集度最高的两个GO功能通路分别是细胞内铜离子转运和钙依赖的细胞基质黏附。(GO功能分析回顾)
                                                                                                                          图7 profile 10 GO富集图
趋势分析方法
是否可以自行做趋势分析呢?
GCBI在线实验室零基础照样做分析,只需拖动趋势分析模板即可。还是以上文中的数据GSE17184作为示范案例。
视频教程步骤
1、 进入GCBI网站的在线实验室 https://www.gcbi.com.cn注册即可免费使用
2、 建立趋势分析方案(方案建立步骤详见GO和pathway分析
建立了如下趋势分析方案。
 
3、 选择样本数据。
在GCBI样本库中直接搜索GSE17184或直接搜文献也可获得数据链接,将数据发送至实验室以供后续分析。
 
根据样本信息在每个时间点选择对应的实验样本。
 
4、 设置各模块参数
差异分析 P值<0.05
Q值<0.05(因多分组,不考虑fold change)
趋势分析  p值<0.05
显著性趋势功能分析(STC-GO)
分析类型:生物过程     p值<0.01,FDR<0.01
 
5、运行方案
运行几分钟即可得到结果。
 
就是这么简单明了,趋势分析,拿下了么?
 
拓展
检测工具Affymetrix GeneChips Mouse 430 2.0 Arrays(文章使用)
Clariom™ D assays, mouse(曾用名GeneChip® Mouse Transcriptome Assay 1.0)(推荐)
拓展知识:
1分钟看懂差异基因结果

一文掌握基因功能(GO)和信号通路(Pathway)分析

如何用Path-net来筛选核心通路

教你如何做趋势分析

共表达网络分析教程

 

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

关键词:,

热评文章

发表评论