分子生物网络展现了分子之间的相互作用,可较为深入地反映基因间的表达调控关系,在组学机理的研究中尤为重要。今天我们首先来看看共表达网络分析。
基因共表达网络分析(Gene Co-expression Network Analysis)是基于基因间表达数据的相似性而构建的网络图,图中的节点代表基因,具有相似表达谱的基因被连接起来形成网络。
共表达网络的建设从概念上来讲是简单直观的,通过基因表达的相似性可分析基因产物可能的相互作用关系,从而了解基因间相互作用脉络及寻找核心基因。核心基因是重要的枢纽,在网络模块中器关键性作用。
下面以文献为例,来看看如何用共表达网络分析找出关键的节点基因。
这篇文章主要研究爆发性肝炎在早期阶段的病理机制,作者在寻找病变过程中起主导作用的基因群及关键基因时,采用ConA 诱导的小鼠肝炎模型,选取了0h,1h,3h,6h四个时间点做表达谱分析。用ANOVA筛选得到了1473个差异表达基因(p<0.05,FDR<0.05)(差异结果解读)。为进一步筛选出显著变化的基因群,作者将差异基因进行趋势分析,从中得到了10个显著变化的趋势模型(p<0.05)并将最显著变化的NO.9和NO.16趋势模型中的基因进行共表达网络分析,来判断哪些基因在爆发性肝炎早期阶段起主导作用。
在以k-core值分的子网络中(k-core值越大表明子网络越处于核心的地位),作者筛选得到了k-core值最高为11的子网络中的26个核心基因。26个核心基因主要参与蛋白转运、转录调节、细胞代谢等方面。筛选出的核心基因为爆发性肝癌的早期诊断提供了分子依据。
如何从共表达网络图中挑选出关键基因?如何看各个参数呢?
在得到的共表达网络图中,可根据基因的网络特征值,即网络中各基因的位置函数计算出该基因在网络中的关系强度。特征值最高的基因处于网络的枢纽地位,起关键性的作用。
如上图中共表达网络图,圆圈代表基因,直线代表基因存在的调控关系。圆圈的大小代表degree值,即网络中某一基因与周围基因的关系数量,degree越大,代表与它有相互作用关系的基因越多。圆圈的颜色就是按照k-core进行划分的聚类结果。k-core表示在一个子图中,所有的点至少连接着k个点,其用以评估基因在网络位置的中心程度,值越大表示degree越大且越中心。相同大小的k-core体现的是基因之间的相似性及功能相关性。图中k-core最高为11的灰色基因就是处于核心地位的基因群。 图中每个基因与相邻基因的密度用聚类系数(clustering coefficient)来表示。聚类系数值越大,表明这个基因邻近基因间的调控关系很复杂,处于的区域对于网络具有更重要的价值。
在基因属性类表中,主要看degree值大小和ishub。degree越大,代表与它有相互作用关系的基因越多。Ishub判断是否是核心基因。
基因关系列表列举了每两个基因的相关关系,主要看相关系数和相关关系。相关系数(correlation coefficient)代表两个基因间表达谱的相似程度,值越高表明相似性越高。相关关系(relationship)表明两个基因表达是正相关还是负相关。
首先用相关系数来判断基因表达之间的相关性,设定阈值筛选一定的基因做网络分析。在网络结果图中,可用一些特征值来衡量基因或基因群是否处于核心地位,如degree值,k-core值等。
在共表达网络分析中,可用R软件包进行WGCNA(权重共表达网络分析),生成节点和边的纯文本文件,将边的纯文本文件导入到Cytoscape软件中(网络可视化工具)即可得到相互作用网络。看到R软件包,不自觉向后退三步。
有没有简单的方法呢?GCBI平台,算法直接加载好了模块,即点即用。后台分析方法像啥无标度网络(Scale Free Network)检验,动态分支截断(Dynamic Branch Cut)方法以及基于二元查找方法的基因关系展示等等你都可以不用理会。
4、设置各模块参数差异分析 p值<0.05 Q值<0.05(因多分组,不考虑fold change)
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!
相关系数,和节点。最重要
怎么建立分析方案?