讲篇怎么用10个GEO数据集翻牌1个基因的Oncotarget!
这篇文章最精彩的部分就是MARCKS是怎么被筛选出来的,小编就跟大家一起来理一理:(跟着我一起数10个GEO数据集)
首先确定研究出发点:上皮性卵巢癌(EOC)预后差,而其中CAF的又在疾病发展过程中起到了非常重要的作用,但其激活机制却不是很明确,那么作者就想寻找EOC中驱动CAF发生的调控分子。
进行综合分析后得出了一个结论:与CAF激活相关的基因在肿瘤组织中多为高表达。目前CAF的标志基因最明确的就是αSMA,该基因可以作为正常成纤维细胞的激活标志,并且在基质细胞和基质之间的介导起着非常重要的作用。
从GEO数据库中找卵巢癌相关的样本,刚好找到GSE40595这批数据,原来这批数据也是研究CAF的调控机制,其样本组织包含了卵巢癌和正常卵巢的上皮组织及使用显微切割获取的卵巢基质样本。
GSE编号 |
样本量 |
卵巢癌基质 |
正常卵巢基质 |
卵巢癌上皮组织 |
正常卵巢上皮组织 |
GSE40595 |
77例 |
31例 |
8例 |
32例 |
6例 |
作者先对卵巢癌和正常的基质样本进行了差异分析,得到了784个差异基因,差异结果里刚好出现了αSMA(刚不是说过CAF的标志基因是αSMA么?),并且是在卵巢癌组中上调,和它同样上调的差异基因挑出来,共503个,这些基因里面总有和αSMA一起参与CAF激活的调控的基因吧!
但是这么多,怎么找到和调控CAF相关的基因呢?这个时候小编略开了一下脑洞,可能作者认为卵巢癌和乳腺癌属于较为类似的女性肿瘤?于是又去找了一批正常乳腺和乳腺癌基质的数据:GSE9014,同样做了差异分析,得到468个差异基因。
GSE编号 |
样本量 |
BreastStroma_Tumor |
BreastStroma_Normal |
GSE9014 |
123例 |
111例 |
12例 |

503个基因和这批468个差异基因集最终取交集,最终得到了3个基因:ARID4B、COL3A1 、 MARCKS。
三个基因应该很容易验证了吧!但是作者还是没着急去做验证实验!
接着先对ARID4B这个基因在EOC中进行了预后分析,发现ARID4B跟EOC病人预后关系不大。相反,COL3A1高表达与病人的预后差表现出了非常高的相关性,但是这个基因在EMT机制中被研究的太多啦,而且非常大的可能是处在下游行使功能而非上游调控功能,简单点说就是该基因有可能就是个下游的小兵,So,不想跟这个基因纠缠太多!
1、 检索该基因相关的文献,已经有报道其参与调节肿瘤细胞粘附和迁移,但是它对CAF激活的影响的研究却很少。
2、 从GEO数据库中找了肺癌(GSE22863)和前列腺癌(GSE26910)两批肿瘤数据,分别进行正常基质和肿瘤基质的差异分析,都表明了MARCKS在肿瘤基质中呈显著性高表达。上皮性卵巢癌基质和正常卵巢基质的WB验证实验,结果也显示MARCKS在上皮性卵巢癌基质呈显著高表达(终于要开始做实验了!)。
GSE编号 |
样本量 |
Lung tumor stroma |
Normal lung parenchyma |
GSE22863 |
30例 |
15例 |
15例 |
GSE编号 |
样本量 |
prostate normal stroma |
prostate tumor stroma |
normal breast stroma |
breast tumor stroma |
GSE26910 |
24例 |
6例 |
6例 |
6例 |
6例 |

3、 利用GSE9890,GSE40595(第2次用)两个数据集分析上皮性卵巢癌上皮组织和基质差异基因分析结果都显示MARCKS在上皮性卵巢癌基质中呈现显著高表达。而跟正常卵巢的上皮组织相比,MARCKS在上皮性卵巢癌上皮组织中表达是降低的(GSE40595:第3次用,GSE38666)。
4、 GSE2109、GSE9891这两个数据集进行挖掘,分析结果显示MARCKS 伴随着肿瘤转移其表达呈现上升趋势。
GSE编号 |
样本量 |
Primary EOC |
metastases EOC |
GSE2109 |
2158例 |
174例 |
48例 |
GSE9891 |
285例 |
205例 |
34例 |

5、 通过GSE15622数据集分析结果显示卵巢癌化疗干预(卡铂或紫杉醇)后MARCKS表达升高。
GSE编号 |
样本量 |
pre-treatment |
post-treatment |
GSE15622 |
69例 |
15例 |
15例 |

接着就是顺理成章的做各种验证实验,后续的验证实验请详见文章(说半天就讲了一个Figure1),用数据作为假设的支撑,你的实验也许会少走很多弯路,磨刀不误砍柴功,做科研呢,最重要的是思路!
最后不得不提的是,本篇文章的大部分GEO数据处理、标化以及差异分析全部是在GCBI分析平台完成的,文中方法学部分有提到。
本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!