单细胞测序如今在生命科学是一大热点,热到可以和这盛夏的温度有的一拼。
以ICB-seq 为代表的单细胞转录组测序(可戳此链接进入查看),一次可以对最高30万个细胞进行测序,得到其中每一个细胞的各基因的表达谱信息。而对这种海量数据以及高维数据进行下游的分析成了重中之重。为了让初始单细胞测序的大家对于分析结果一些代表性的图表有一个简要的了解,在此我们对一些图进行了解释。
上图展示了单细胞测序后的质控小提琴图,其中散点代表了每一个细胞,左边的图展示了每个细胞中鉴定到的基因数(nGene)的分布情况;右图展示了去重后的UMI数目的分布。这个质控图可以方便我们了解此次单细胞测序的基本数据分布,以及帮助我们进行后续的细胞筛选过程。
上图展示了每个细胞中的UMI数量与对应的鉴定到的基因数的散点图,从中可以明显看出,两个变量具有很强的正相关性。说明随着测序量的增加,每个细胞内能鉴定到的基因数也在相应增加。GCBI知识库
上海其明信息技术有限公司
上图是聚类分析后的tsne的分群展示,其中每一种颜色代表了cluster 后鉴定到的一种细胞群, 散点代表每一个细胞,图中的数字代表了该群的cluster 编号。从上图可以得知,一共分到了59个不同的细胞群。
同理,我们也会给出当前单细胞分析最新的降维展示的 UMAP图,各颜色和散点代表的含义与上图的 tsne 图是一致的。聚类分析可以说是单细胞转录组测序项目中最重要的环节了。它直接告诉我们这个样本中计算鉴定到多少个细胞群,原则上,一般认为一个群代表一种细胞类型。但是很多情况下,好几个小群构成一个大的细胞类型,每一个小群代表该细胞类型的亚型。比如T cell 就包括好几个亚型。
虽然从上图看起来,聚类分析的结果展示也没那么复杂。然而,事实上,要得到一个尽可能比较准确的聚类分析的结果,涉及到的分析内容是很多的,比如筛选质控、数据标准化分析、特征提取、降维分析、距离计算、非监督聚类、聚类展示等步骤。其中,每一步都大有学问,都涉及到很复杂的方法选择与参数调整。
GCBI知识库
上海其明信息技术有限公司
上图展示了对聚类分析后鉴定到的每一个分群后进行差异基因鉴定后,每个群选择top10的差异基因做的热图展示,y轴代表了每一个细胞,并且按照cluster 的编号来排序的。x轴代表了差异基因。热图中的颜色代表了基因的表达水平,黄色代表高表达。
从这张图可以明显的看出,每个子群的差异基因还是比较特异的,而这种特异性的基因理论上可以作为该细胞类型的marker 基因。从marker 基因可以用来鉴定和推断细胞类型。
GCBI知识库
上海其明信息技术有限公司
上图主要展示了对其中一个子群中鉴定出的marker 基因的表达水平,使用小提琴图的方式能直观的比较这几个marker 在所有子群的的相对表达水平。可以来衡量该基因作为某一个子群的marker 基因的特异性。一般来说,比较好的marker 的特异性都是比较好的。
上图展示的目的与第一张图是一样的,都是某一个子群的marker 基因的表达水平的展示。但是是在二维的展示,能更加直观的看到某个marker 基因在所有细胞中的表达水平。其中颜色越深(越蓝)说明该基因在这些子群或者细胞内表达越高。GCBI知识库
上海其明信息技术有限公司
在单细胞测序的分析中,从差异基因的角度来分析,可以对子群中鉴定到的差异基因进行功能富集分析,上图展示的是 GO 的富集分析,分别从生物学通路、细胞定位、分子功能三个层面来进行富集。其中,x 轴代表的富集的显著性水平,数值越大,代表越显著;y 轴代表了GO 的各词条名称。
上图代表的是某子群中鉴定出的差异基因的KEGG 通路的富集分析,使用气泡图来展示这些显著的通路。其中,x 轴也是代表富集的显著性水平;y 轴代表KEGG 的通路名称;气泡的颜色代表富集的显著性水平,气泡的大小代表了参与这个通路的差异基因的数量。通过对每个子群的差异基因进行下游的GO 与 KEGG 的富集分析,可以从功能角度与通路角度来理解和研究该子群或者该细胞类型在该试验状态下的生物学功能。并且,这些富集分析的结果可以用来辅助进行细胞类型的鉴定和推断。富集分析的结果结合单细胞可以给研究人员提供更多的思路和启示。
这些都是单细胞测序研究中最最常见的图,学会了本篇文章,你已经比大部分同学都要优秀啦~
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!