基础科研

1分钟get无监督聚类

聚类的思想方法在生信分析很常见,比如我们最常见的基因热图其实就是基因表达的聚类图,还有在做多时间节点或者浓度梯度等一系列实验所用到的趋势分析也暗含聚类的思想。

图1 基因热图&基因表达趋势图

今天给大家介绍的是聚类方法是无监督聚类,听着感觉是不是有点难以理解。但就像标题所说的,1分钟get无监督聚类,so 莫怕。

主要通过三方面来介绍。无监督聚类是什么?能干什么?怎么做?

1.什么是无监督聚类呢?

首先解释一下无监督。这个就得先提一下监督学习和无监督学习。监督学习,就是人们常说的分类,可通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。无监督学习是事先没有任何训练样本,需要直接对数据进行建模。聚类就是在样本没有标注的情况下,对样本进行特征提取并分类,属于无监督学习的内容。

2.无监督聚类能干啥呢?

无监督聚类主要用于特征提取分类,具体到生物学研究领域,其能根据提供的样本数据(如基因表达芯片数据),来评价其相关性和可能的分组方案。该方法在癌症基因组学尤其是分子层面的新子类研究中已得到普及。

3.无监督聚类怎么做呢?

下面就结合肝癌的分类在GCBI上演示一下无监督聚类具体的分析步骤。

链接:GCBI在线实验室   在线分析教程

  • 选择样本数据

点无监督聚类的按钮,选择所需要分析的样本

图2 GCBI在线实验室分析界面

  • 参数设置

参数设置中主要是分组数和聚类算法的选择。分组数一般选最大,这样最后可供选择的结果就越多。算法分别是hc和ks。hc指的是Hierarchical clustering层次聚类,km指的是K-means聚类。算法原理啥的自行找谷歌或度娘,一般选默认选项hc和spearman。

  • 执行无监督分组

无监督左上方的红色小圆点变成绿色表明程序正在运行过程中。等到小圆点重新变成红色,表明运行完毕,可以查看结果了。

 

4.结果展示

无监督分组会显示最佳的3个分组方案,由最优到次优向右排序。分类的饼形图中数字代表同一聚类中的样本量。(红色框)

在弹窗右上角可以切换查看的结果,并可以查看方案对应的无监督参数(绿色框)

中间区域展示的分别是tracking plot,delta area,和相关性图。

1)  tracking plot

纵坐标从上到下依次是2到10分组情况,横坐标代表不同的样本。

2)  delta area

 

3)  相关性图

5.将结果添加到方案

点击选择合适的分组,添加到方案。在方案界面,可以查询到分组中具体的样本信息。

 

注:无监督分组程序运行完毕后,可以多次独立添加分组到方案,即,如果推荐的是3-2-4三个分组,你可以将3分组方案、2分组方案、4分组方案都添加到方案中;添加的样本分组中同时涵盖了样本及其相关信息。

如果需要更改相关参数或者重新运算,请点击重新设置。

 

附录

采用的分析数据来自下面这篇文献(PMID:23913408),主要研究肝基因表达谱以区分患有轻微或者严重非酒精性脂肪肝的症状前病人。通过无监督聚类分析可以看到,结果优选是两分组,说明分析结果合理。

 

 

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

热评文章

发表评论