在实验的设计中,我们经常需要了解基因随时间,温度,药物浓度等变化的表达趋势。当生物体按照一定顺序发生变化或者受到外界环境刺激(如受到不同浓度的化学药物诱导)时,基因表达变化也会呈现趋势特征。
趋势分析(STC, Series Test of Cluster)就是发现基因表达的趋势特征,将相同变化特征的基因集中在一种变化趋势中,从而找到实验变化过程中最具有代表性的基因群,揭示生物样本在变化过程中所特有的规律。
观察基因随时间的变化是趋势性分析应用较多的场景,下面我们就以此来看看趋势性分析的具体应用。
这篇文章主要研究爆发性肝炎在早期阶段的病理机制,研究目的在于寻找病变过程中起主导作用的基因群及关键基因。作者采用ConA 诱导的小鼠肝炎模型,选取了0h,1h,3h,6h四个时间点做表达谱分析,用ANOVA筛选得到了1473个差异表达基因(p<0.05,FDR<0.05)。
为进一步筛选出显著变化的基因群,作者用趋势分析将差异基因的表达趋势进行了分门别类,从中得到了10个显著变化的趋势模型(p<0.05)。
图1 小鼠肝炎随时间变化的26个趋势模型,有颜色的代表显著的趋势模型(p<0.05),无颜色的代表不显著,相同颜色代表相似性的表达趋势
并在最显著变化的NO.9和NO.16趋势模型中,用基因共表达网络分析得到了26个核心基因,这些核心基因主要作用于蛋白转运、转录调节、细胞代谢方面。筛选出的核心基因为爆发性肝癌的早期诊断提供了分子依据。
图2 NO.9和NO.16趋势模型中基因的表达情况
上文作者在做爆发性肝癌的病理机制的研究中,通过趋势性分析来寻找病变过程中起主导作用的基因群。那上述的趋势模型图具体怎么看呢?完整的趋势分析结果是怎么的呢?
用上述文献中的样本GSE17184在GCBI在线实验室进行趋势分析,具体方案如下,0,1,3,6为时间分组,先对数据进行差异分析(P值<0.01 Q值<0.05),得到了9409个差异基因,再对差异基因进行趋势性分析(详细操作见趋势分析方法)。
趋势分析得到的26个趋势模型(亦称为profile)中,筛选得到12个显著性profile(红色部分),最显著的两个分别为profile10和profile17,profile10和17都在1时无明显变化,随后开始下调/上调。
四个时间点为何是26种趋势模型?如何将表达基因匹配到趋势模型中?又如何判断趋势模型的显著性?答案请戳趋势分析方法论
如何看表达趋势模型呢?选取profile10作为示例。
图的正上方,显示趋势模型编号及P值。横坐标表示样本顺序,0、1、2、3分别对应时间点0h,1h,3h,6h。纵坐标表示基因表达变化幅度,正负号表示上下调。
Profile 10的趋势模型可归纳为(0,0,-1,-2)。(为什么趋势线都是都从0点开始呢?见下文)。
趋势总图中的每个profile都对应有各自基因的趋势图。profile10的基因趋势图如下图所示。
图的上方(0,0,-1,-2)对应趋势总图中的趋势模型。横坐标表示时间相,纵坐标表示表达变化幅度 log2(V(i)/V(0)),V(i)表示某相的表达值,V(0)表示0点的表达值。这就是为什么趋势线都是从零开始的。每条折线代表样本中的一个基因。
趋势总表中罗列了所有显著性趋势模型,红框中的参数表示基因在每个点变化幅度,绿框中为统计检验参数。 genes assigned表示在每个趋势模型中的基因个数,gene expected表示置换基因样本顺序分配在这个趋势模型中的基因个数,由此来检验某个趋势模型是否具有统计显著性意义。黄框里是每个趋势模型的基因列表。
单个趋势模型列表罗列了每个profile中基因在每个时刻点的具体数值。
在趋势分析中,可通过STC-GO进一步对显著趋势模型中的基因做GO功能分析,看基因群主要集中在哪些功能通路。上图profile10中的基因GO功能分析如下图所示,富集度最高的两个GO功能通路分别是细胞内铜离子转运和钙依赖的细胞基质黏附。(GO功能分析回顾)
差异分析 P值<0.05
Q值<0.05(因多分组,不考虑fold change)
分析类型:生物过程 p值<0.01,FDR<0.01
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!