临床研究

如何巧用数据库找到关键基因

组学数据千千万,如何从中筛出一个关键基因进行下游研究呢?我们已经习惯通过功能通路,差异表达值等来筛选,下面介绍的这种方法一定能让你惊呼,为啥?人家用数据库来筛。

这篇文章(PMID: 23828858)巧用数据库从236个蛋白中一路筛选,最后找到了在弥漫大B细胞淋巴瘤(DLBCL)中促进肿瘤生长和抗利普昔单抗(Rituximab)的关键核酸因子CYCLON。用数据库来进行筛选,作者是怎么做到呢?

作者课题的切入点是细胞内起分化作用的、阶段性表达的基因或蛋白异常的激活导致了癌症的发生。在DLBCL中,可能伴有MYC和BCL2/BCL6的双重基因重排,从而导致特殊的临床表现和不良的预后。且这种double-hit的DH-DLBCL对R-CHOP反应不佳,于是作者就想探究一下是哪些关键核酸因子导致急性肿瘤的发生及对免疫化学疗法有抵抗作用。

1.蛋白组数据

作者首先选用蛋白组来捕获所有的核酸因子,并用MS解析得到236个蛋白。

2.关键来了,用BioGPS筛选差异表达基因 

那236个核酸因子中哪些异常表达了?难道再做个转录组?照这个思路下去,再多的科研经费都不够小爷你挥霍的。所以数据库用起来,里面不就有大量现成的数据嘛。作者选用了BioGPS数据库,比对了这236个蛋白在正常组织中的表达量,最后筛选出了6个在DLBCL中异常高表达的核酸因子,分别是CYCLON,LYAR,H2AFY,NUMA1,MECP2及STMN2。(筛选标准请戳原文)

6个候选基因在正常淋巴中和非淋巴组织中的基因表达热图

3.用GEO确证差异表达基因

用BioGPS筛选出6个异常高表达的核酸因子后,作者又用公共数据(GEO GSE2350)再一次验证了6个基因中的5个在正常B细胞中不表达或低表达,在慢性或急性淋巴唉中高表达。

5个候选基因分别在正常B细胞、慢性淋巴瘤和急性淋巴瘤中基因表达热图

从236到6个,是不是明朗了很多。

4.用GEO确定研究目标

6个基因都是高表达,接下去如何筛选,量变看完看功能。结合前人文献中对这6个核酸因子的研究,发现H2AFY和CYCLON这两个核酸因子在促进基因异常表达中具有潜在作用,所以作者最后选用这两个因子来做后续分析。

作为一个省钱小能手,作者又找到了有临床注释的公共转录组数据(GSE10846),并分析了H2AFY和CYCLON过表达和生存率之间的关系,最后发现高表达的CYCLON在DLBCL中与不良的存活率显著相关,且相比于CHOP,用R-CHOP治疗效果不佳,这暗示CYCLON可能是Rituximab一个新的响应因子。

按CYCLON表达量所做的生存曲线

按CYCLON表达量及治疗方式所做的生存曲线,左图采用R-CHOP治疗,右图采用CHOP治疗

好了,妥妥的找到了一个关键基因,接下去就是功能验证起来,文章发起来了。作者最后验证了CYCLON是一个新的MYC合作因子,能够促进恶性肿瘤的生长及在淋巴癌中对利普昔单抗有抵抗作用。结果发表在EMBO Mol Med上,影响因子9.547。

为啥这位仁兄革命胜利了,而你还在苦苦长征?关键点在于,一、正确的思路指导,二、数据库资源的合理利用。

 

附录-

数据库介绍(Bio-GPS.GEO.GCBI)

 

本文由 GCBI学院 作者:乞嘚咙咚呛咚呛 发表,转载请注明来源!

热评文章

发表评论