博客

文献解读丨纯生信分析没搞头了?多组学分析告诉你怎么发22分!

文章来自微信公众号"GCBI知识库",版权归上海其明信息技术有限公司所有,未经许可,不得转载。转载请联系原作者。

 

全文字数:4059

阅读时间:13分钟

小编碎碎念:

上次“公共数据挖掘丨实例解析告诉你,怎样用别人的数据,发自己的文章!”,我们聊到现在的纯生信分析不好做了,一般要发5分以上的文章就要加上分子机制研究了,一大堆细胞实验、动物实验好麻烦。

今天lasia老师就要给大家解读一篇文章,看作者如何通过多组学联合分析把文章发到22分的Cancer Cell上去。

文章标题:Integrative Analysis Identifies Four Molecular and Clinical Subsets in Uveal Melanoma

杂志:Cancer Cell

影响因子:22.844

发表时间:14 August 2017

刷爆了朋友圈的多组学分析相信大家都不陌生了,但为了方便阅读还是在正文开始给大家简单介绍一下。

多组学联合分析是指对来自不同组学,如基因组学、转录组学、蛋白组学和代谢组学的数据进行统一处理、比较分析应用到同一课题中

今天要介绍的这篇文章即是应用了多组学联合分析,在DNA、mRNA、miRNA、lncRNA、甲基化多层面上对研究主题进行解读。常遇到一些老师会问:

  1. 只有一个层面,能进行多组学联合分析吗?
  2. 已经有了某个层面的内容,能从公共数据中进行补充吗?
  3. 自己的数据和公共数据可以联合分析吗?

答案当然是肯定的。以本篇文章为例,里面即有公共数据,又有自己的测序数据,两者联合分析并没有障碍。

接下来,就看一下本篇文章是如何操作的

文章背景

  1. disomy 3(D3)和monosomy 3(M3)两个葡萄膜黑色素瘤(UM)亚型都被分成预后不同的分子亚群
  2. 预后不良的M3-UM亚型的DNA甲基化模式都完全一致
  3. 预后不良的M3-UM子亚群基因组、通路和免疫特征具有不同
  4. D3-UM亚型具有EIF1AX和SRSF2/SF3B1突变互斥的模型以及不同的甲基化谱

文章摘要

研究人员分析了80个葡萄膜黑色素瘤(UM),并将预后不良的M3-UM分为具有不同基因组、转录特征和临床结果的亚群。体细胞拷贝数的变化和DNA甲基化特征将预后较好的D3-UM分离为低风险或中等风险。

对80例葡萄膜黑色素瘤(UM)的综合多平台分析确定了4个分子差异的临床相关亚型:2个与预后不良的单倍染色体3 (M3)和2个与预后较好的两倍染色体3 (D3)相关。

研究人员发现,BAP1的缺失伴随着M3的出现,并且与整体DNA甲基化状态相关。预后不良的M3-UM分为具有不同的基因组变异、转录特征和临床结果的亚群。

研究人员报告了功能变化的SRSF2突变。在D3-UM中,EIF1AX-和SRSF2/ SF3B1突变肿瘤具有明显的体细胞拷贝数改变和DNA甲基化谱,为这些低风险和中等风险临床突变亚型的生物学研究提供了线索。

▲文章图形概要

研究意义

研究人员使用序列组装的方法而非标准SNP/indel算法,发现了多个UM中BAP1的复杂变化。研究人员发现预后不良的UM最初发展为M3,BAP1是随着DNA甲基化的改变而改变的。尽管存在这种共同的甲基化状态,预后不良的M3-UM通过拷贝数改变、RNA (mRNA/lncRNA/miRNA)表达和细胞通路活性谱被分成两个亚群。研究人员的综合分析显示,体细胞拷贝数和相关基因表达亚型与不同的临床结果相关。研究结果揭示了四个不同的分子和临床UM概况,强调分层管理UM患者的必要性。

分析流程

接下来文章的解读不会按照文献的思路进行解读,而是以拿到数据之后的分析思路来解读文章,方便大家复盘。(可在底部点击阅读原文,直达文献,了解更多细节。)

先放简要分析流程图:

WES

由标准算法识别的基因突变

使用MutSig2CV检测到9个显著突变基因(SMGs): GNAQ, GNA11, SF3B1, EIF1AX, BAP1, CYSLTR2, SRFF2, MAPKAPK5和PLCB4。这些都没有在CM (Cancer Genome Atlas Research Network, 2015)中被确定为SMGs。

▲驱动基因的频率、类型、等位基因片段、互斥性和特征

使用CoMet方法计算出在G蛋白通路相关的GNAQ和/或GNA11(92.5%)、CYSLTR2(4%)和PLCB4(2.5%)基因中发现相互排斥的体细胞突变,这与之前的研究结果一致。80 UM中27个(34%)的EIF1AX和SF3B1突变几乎相互排斥。EIF1AX突变仅存在于D3-UM中,即SCNA簇1(如下图A)。

与EIF1AX突变的情况一样,带有SF3B1突变的UM大多数(78%)存在于D3-UM中,但与EIF1AX突变不同的是,D3-UM中的SF3B1突变与SCNA聚类2相关,多数为8q扩增。因此,EIF1AX和SF3B1突变的D3-UM形成了两种相互排斥的SCNA谱图。

在SCNA组1和组2 (D3)中,BAP1 mRNA的表达显著(p = 5.3E-16)高于SCNA组3和组4 (M3)。然而,研究人员发现在具有和不具有BAP1异常的M3-UM中,BAP1 mRNA的表达没有显著差异,这表明其方法可能没有检测到一些BAP1的改变,或者BAP1调控可能涉及额外的表观遗传机制。

bap1异常UM与全基因组DNA甲基化图谱的关系

研究人员使用consensus clusterplus,欧几里德距离和PAM对变化大的1% CpG探针(385,857个探针中的3,859个)进行无监督聚类。对2 ~ 7个聚类进行了聚类稳定性评价,以及与临床和分子协变量的关系。

最终得到最佳的聚类方式为4个分子亚型 (如下图)。EIF1AX突变肿瘤仅存在于DNA甲基化簇1中,而DNA甲基化簇2和3中的UM高度富集(16个肿瘤中的12个),带有SF3B1/SRFR2突变。

因此,带有EIF1AX的D3-UM与SF3B1/SRFR2突变具有明显的DNA甲基化模式。M3/ bap1异常UM肿瘤表现为统一的整体DNA甲基化模式。

▲无监督的DNA甲基化数据聚类,热图显示DNA甲基化聚类排列的beta值。

基于UM转录组的四个子集

首先筛选具有高表达和高变异系数的基因,筛选标准为:0.75分位数的均值(RSEM)值作为高表达基因的阈值,0.9分位数的方差(RSEM)值作为高表达基因的阈值。最终筛选到1,981个基因,然后计算Spearman相关距离并应用consensus clusterin进行分区,输出基因表达热图、主成分分析和剪影图显示有四种表达亚型:cluster 1 (n = 22)、cluster 2 (n = 21)、cluster 3 (n = 15)和cluster 4 (n = 22)(图3A)。并用ClaNC来鉴定表达模式具有亚型特征的基因。采用SigClust利用1000个随机排列以及协方差估计方法对亚型中存在的基因表达模式差异进行统计显著性评价。

D3-UM根据转录组的数据分为集群1和2,M3-UM分为集群3和4,12个基因的相关预后的panel分为两个组里。我们注意到LINC00152 (CYTOR)和BANCR在预后不良的3组和4组中比预后良好的1组和2组中有更高的丰度,如下图。

其他功能特征的lncrna如NEAT1和MALAT1在预后不良的3组和4组之间有差异表达。研究人员鉴定了与复发性SCNAs和DNA甲基化相关的mrna和lncrna。

例如PVT1 (8q24.21)的表达与SCNA 8q高度相关(rho = 0.65,假发现率[FDR] = 6E-10), lncRNA在预后较差的lncRNA簇3和簇4与簇1和簇2中表达差异最大。LINC00152和PVT1均属于受到了DNA甲基化影响的差异表达的lncrna。LINC00152在实体肿瘤中表达增加,与细胞迁移、侵袭和增殖相关。PVT1已通过多种机制被证明是致癌的,包括稳定MYC蛋白水平。CYSLTR2在原发UM中反复突变,在mRNA聚类1中与所有其他聚类相比表达明显较低,提示CYSLTR2表达和突变的可能作用。mRNA聚类4中变化最大的转录本包括免疫基因和定位于8q的基因。

miRNA表达景观

与转录组UM亚群是否一致

MicroRNA测序(miRNA-seq)数据鉴定出4个聚类,其中有2个样本异常组,其中癌症相关mirna差异显著(如miR-9,miR-21,miR-182/3,miR-375)。4个主要miRNA簇明显与M3及其DNA甲基化状态相关,与mRNA和lncRNA亚型的一致性不高。

此外,miR-486-5p和miR-451a在miRNA聚类3中丰富,而cluster-4肿瘤中miR-142、miR-150、miR-21、miR-29b、miR-146b和miR-155表达较高。而在亚型1中,定位于Xq27.3的mirna丰富,而性别与亚型之间的关系并不显著(p = 0.77, Fisher精确检验)。

癌症相关的mirna在簇间的表达有差异。例如,在miRNA cluster 4中, miR-21-5p的表达量增加了4倍,与MIR21 DNA低甲基化一致。其他39个mirna的表达受DNA甲基化的影响。某些mirna的表达受SCNA的影响;miR-30d和miR-151a的表达与8q SCNA相关,而M3-UM对包括let-7g、miR-28和miR-191在内的一些3号染色体mirna的表达较低。miRNA组3和组4之间存在差异miRNA- mrna靶向关系。

miRNA cluster 4与M3-UM具有免疫介导作用(下图),表明多个miRNA的表达可能与在侵袭性UM中起重要作用的免疫环境的促进有关。

免疫浸润UM的特点

通过DNA甲基化和RNA-seq分析推断出CD8 T细胞渗透出现在30%的D3-UM,而M3-UM亚型中都是低表达,并发现interferon-g信号通路(IFNG、IFNGR1和IRF1),T细胞侵袭(CXCL9和CXCL13),细胞毒性(PRF1和GZMA),免疫抑制(IDO1, TIGIT,IL6, IL10和 FOXP3)与CD8A共表达。与人类白细胞抗原(HLA)基因表达与炎症浸润相关,我们发现在M3-UM中HLA表达较高,与CD8A表达相关。

UM亚群之间,通路和调节器具有不同的活性

研究人员分析了RNA(PARADIGM和MARINa算法)和蛋白(反相蛋白芯片[RPPA])的表达,以识别UM亚群中活化的信号通路和调控基因。PARADIGM-inferred pathway levels解决了4个主要分组中更小(n = 7)的异质性组。在以转录为基础分组的cluster 4中,有95%的样本与在PARADIGM分组4的样本一致。

其中DNA损伤修复/应答(DDR)活跃,MYC信号通路和HIF1a活跃,与缺氧反应调节一致。多种免疫相关转录因子相对活跃,包括JAK2-STAT1/3和JUN-FOS,与这些预后不好的M3肿瘤中免疫相关基因水平升高相一致。PARADIGM组3病例中与3%的转录组组3一致,其关键转录因子FOXA1和FOXM1活性升高,MAPK和AKT水平升高,表明细胞周期和细胞增殖水平较高。

因此,尽管预后较差的两组M3/ bap1 畸变UM具有相同的全基因组甲基化谱,但它们具有明显不同的细胞信号谱。

注意到基于SCNA和基于转录的,基于通路的分群在很大程度上是不完全一致的,我们比较了集群之间的差异的PARADIGM信号通路和差异的MARINa调控因子。对于基于转录和SCNA的分组来看,DDR、HIF1a和MYC信号在簇4中比在簇3中更活跃。然而,在转录组4中观察到的免疫信号介导因子没有在SCNA聚类中,说明转录组和SCNA聚类是不完全一致的生物学基础。

考虑到M3和8q扩增之间的强相关性,我们假设致癌转录因子MYC (8q24.21)在UM进展中发挥作用。MYC可以根据其复合物(如MAX和/或MIZ1)激活或抑制其基因靶点。在整个队列中,MYC/MAX目标的激活高度不同。出乎意料的是,尽管在8q水平上差异很大,但是两个PARADIGM组1(主要是d3 /8q normal肿瘤)和组4(所有预后不良的M3/8q gain肿瘤)都显示出较高的MYC/MAX复合物活性水平。相比之下,MYC/MAX/MIZ复杂靶点在组4和组5(88% M3/8q-gain 肿瘤)中表现最多。因此,MYC/MAX的活性与M3 3/8q gain状态相对应。

总的来说,路径分析表明:DDR、缺氧、MYC信号通路、MAPK/ AKT等细胞过程的相对活性在M3-UM和D3-UM中均存在差异。这些结果表明,不同的UM亚群可能需要特定的靶向策略才能达到疗效。ddr调节剂、抗缺氧药物、直接或间接抗myc治疗以及针对这些途径的化合物目前正在人类临床试验中进行研究。

结论

作者对UM的综合、多维的分子和计算研究提供了具有预后和治疗意义的见解。分析将原发性UM肿瘤分为4个分子亚型,将预后较差的M3-UM和预后较好的D3-UM分别细分为2个亚组。作者发现预后不良的M3-UM与D3-UM不同的在于具有统一的DNA甲基化模式,这表明BAP1的异常可能导致易于转移的DNA甲基化状态。但通过基于SCNA和基于转录组的分析可以将其分为两个具有不同信号通路调控的亚组。

总的来说, 开发一个临床相关的分类器需要前瞻性评估具有相似临床病理特征的肿瘤的拷贝数和基因表达数据,以确定高低风险的M3-UM患者。这种分类器可以影响转移监测的频率,优先选择高危患者进行更积极更早的辅助临床试验,为临床试验的设计提供更精确的UM转移数据,以帮助他们进行个人的医疗选择。由于尚未开发有效的UM辅助治疗方法,因此对这两种与UM转移相关的分子亚型进行前瞻性分析尤为及时和重要。

每次学点小知识!

综合途径水平(IPLs)

采用PARADIGM集成了80 UM样品的mRNA表达、SCNA和通路交互数据。简单地说,这个方法推断出基因、复合物和过程的综合通路水平(IPLs),使用通路相互作用,以及来自每个患者样本的基因组和功能基因组数据。PARADIGM算法为每个反映激活(或抑制)概率的可能性的特征推断出一个IPL的通路活性。

以上就是本次的内容啦!

先给看到此处的小伙伴点个赞!

满满干货,你吃透了吗?

高级生信部的小伙伴可是被要求阅读全文、仔细体会,并对生信分析部分进行重现的!

你可能还想阅读

明信社-高级生信分析系列:

  1. Cell文献解读丨同是研究三阴乳腺癌,为何偏偏它有28分?
  2. Nature子刊文献解读丨少做实验,还能发高分文章的新思路!你来不来?
  3. Nature子刊文献解读|外显子测序不白做,如何解读数据是关键!
  4. 首发丨肿瘤数据挖掘还在用TCGA?这个数据库你绝对没听过!(二)
  5. 大佬!为什么你只做测序、没有实验也能发cell?

点个赞再走!(◍ ´꒳` ◍)

本文由 GCBI学院 作者:其明技术专家 发表,转载请注明来源!

热评文章

发表评论