zl程序教程

您现在的位置是:首页 >  Java

当前栏目

多组学数据挖掘结直肠癌的预后与免疫应答潜在的预测标记

2023-02-18 16:30:37 时间

前面我们宣传了 重磅课程来袭-专注于肿瘤外显子数据处理,但是由于转录组是深入人心尤其是单细胞转录组的大行其道,现在的小伙伴们对基因层面的数据分析不甚了解,无论是全基因组测序, 还是外显子,基因panel的捕获测序,这些技术在人类疾病研究,尤其是肿瘤领域,也曾经是是“当红炸子鸡”。为了唤起大家的记忆,我们安排实习生解读了十几篇肿瘤外显子技术的最新应,前面解读的是:小细胞肺癌化疗耐药相关的肿瘤外显子层面差异,这个需要自己设计多分组样品队列进行测序,其实也有数据挖掘的可能性,下面我们就介绍一个2022的多组学数据挖掘结直肠癌的预后与免疫应答潜在的预测标记的文章:

现在的数据挖掘文章越来越难了吗,本篇文章影响因子只有1分,但是图表内容其实还挺全的,「下面咱们解析一下看看这篇低分文章干了什么」

文章简介

  • Title: 「Comprehensive Analysis of Genomic and Expression Data Identified Potential Markers for Predicting Prognosis and Immune Response in CRC」
  • Jounal: Cenetics Research
  • Factor:1.02
  • Time:March 2022
  • Online:https://www.hindawi.com/journals/gr/2022/1831211/

1.研究背景

结直肠癌(CRC)是胃肠道最常见的恶性肿瘤类型。在目前的研究中,我们描述了「结直肠癌患者基因组改变的情况」。基于全外显子组测序(WES)的结果,我们「鉴定出31个显著突变的基因」。其中TP53、KRAS、APC、PI3KCA、BRAF等多个基因在既往研究中被报道为显著突变基因。在本研究中,突变频率最高的基因是TP53,该基因编码肿瘤抑制p53,影响约60%的CRC患者。此外,我们对正常组和肿瘤组之间「显著突变的基因进行表达谱分析」,鉴定出「20个差异表达基因(DEGs);」 其中,CSMD3、DCHS2、LRP2、RYR2、ZFHX4与PFS呈显著负相关。基于显著体细胞突变基因的表达对CRC进行共识聚类分析。「根据****显著体细胞突变基因的表达水平」,在「CRC中共鉴定出****3种亚型」,包括C1 (n=453)、C2 (n=158)和C3 (n=9)亚型。「临床病理特征分析」显示「亚型C1无进展生存期最长」,中位时间为8.2年,而亚型C2和C3分别有4.1年和2.7年的无进展生存期。此外,我们发现「3种亚型与肿瘤浸润深度、淋巴结转移和远处转移有关」。免疫浸润分析显示,B细胞原生、T细胞CD8+、T细胞CD4+记忆激活、T细胞γ δ、NK细胞静息、巨噬细胞M0、巨噬细胞M2、髓样树突状细胞激活、肥大细胞激活、肥大细胞静息三个亚群在三组间的肿瘤浸润水平「均有显著变化」,表明「基于22个体细胞突变基因划分」的三个亚群「对不同免疫状态患者具有较高的分化能力」。这有助于预测CRC患者的免疫治疗反应。我们的研究结果可以为CRC的预后提供新的潜在预测指标和CRC免疫治疗的治疗靶点。

2.研究方法

01 「数据采集」

从TCGA数据库提取CRC患者的「突变数据、RNA-seq数据和临床医学信息」。我们的研究共纳入536例CRC样本,其中包括「536例CRC肿瘤样本和536例相邻正常样本」。---思考:现在挖掘变难了吗,大样本还这么低影响因子,还是分析的角度不行呢?

02 「无监督共识聚类分析」

使用Consensus Cluster Plus 「R包」,我们进行了一个「无监督的共识分析」。简而言之,这里显示了「基于k值的一致性矩阵图」。此外,对于每一个k,经验累积分布函数图显示出「均匀分布」。簇共识图描述了各种k值的簇共识值。「集群共识值越高,集群稳定性水平越低。」平均共识值取自一个项目,共识簇的成员由一个项目共识图表示。在一个项目中显示多个k值不同的项目共识值。

03 「分子亚型的免疫信号分析」

采用ESTIMATE算法计算微环境因子的表达分数。利用TIMER分析肿瘤样本中的6种肿瘤浸润淋巴细胞,包括CD8+ T细胞、树突状细胞、中性粒细胞、B细胞、巨噬细胞和CD4+ T细胞。heatmap被用来可视化不同亚型CRC中免疫特征的表达得分。免疫签名和检查点基因表达水平也检查了所有分子亚型。

04 差异表达基因分析

采用Student ttest,观察截断值 log2 (fold change)>1, p值<0.05。

3.研究结果

01 CRC的体细胞突变谱

536份WES样本数据用于分析CRC体细胞突变的情况。在总共536个样本中有525个样本(97.95%)发生改变(图1(a))。其中APC、TP53、KRAS、PIK3CA、TNN、SYNE1、MUC16、FAT4、RYR2、OBSCN、ZFHX4、LRP1B、DNAH5、DNAH11、FAT3、CSMD3、FBXW7、PCLO、CSMD1、ABCA13、USH2A、RYR1、FLG、NEB、RYR3、ADGRV1、LRP2、CCDC168、DCHS2、ATM、A1BG等31个基因被鉴定为显著突变基因(图1(a))。变体分类可分为9种类型,其中错义突变占多数(图1(b)和1(c))。体细胞突变类型以C > T为主(图1d)。每个样本的中位数变异为106个。TTN、APC、MUC16、SYNE1、TP53、FAT4、KARS、RYR2、OBSCN和PIK3CA是前10个突变基因(图1(e)-1(g))。

「图1:CRC的体细胞突变图谱」

(a)瀑布图显示CRC中前31个突变基因的体细胞突变景观。存在变异分类(b)、变异类型(c)和SNV类(d)的分布。(e)-(f)各样本的突变负荷(变异分类类型),(g)堆叠条形图显示了前10个突变基因,包括TTN、APC、MUC16、SYNE1、TP53、FAT4、KARS。RYR2, OBSCN和PIK3CA。

这个突变全景图超级简单,只需要下载特定癌症的MAF格式的somatic突变信息即可,在R里面就一个 maftools 包的一句话代码。

「02 生存相关体细胞突变的鉴定基因。」

为了研究体细胞突变与CRC「预后」的关系,「将31个显著突变的基因分别分为两组」。我们发现4个基因SYNE1、TNN、CCDC168和NEN「突变与短总生存期」显著相关(图2(a)- 2(d))。此外,我们「还对一个正常组和两个肿瘤组中显著突变的 基因表达谱」进行了「分析」。我们发现正常结肠组织与肿瘤组之间有「20个基因」发生了显著变化(图3(a))。其中,DNAH5、TP53、OBSCN、LRP2、NEB、PCLO、MUC16、USH2A、CCDC168表达显著上调。CSMD1、SYNE1、RYR1、RYR3、APC、ADGRV1M、DCHS2、KRAS、LRP1B和FAT4均显著下调(图3(a))。此外,研究了「体细胞突变基因表达与CRC无进展生存(PFS)之间的关系」。我们发现高表达的CSMD3、DCHS2、LRP2、RYR2和ZFHX4「与CRC中的PFS呈显著负相关」(图3(b)-3(f))。(**突变与表达谱分别与生存预后关联)

「图2」 「与生存相关的体细胞突变基因的鉴定」

SYNE1 (a)、TNN (b)、CCDC168 (c)和NEN (d)突变的CRC患者的总生存时间更短。

「图3:体突变基因调控异常与CRC预后相关。」

(a)正常结肠组织与CRC组之间有20个基因发生显著变化。其中,DNAH5、TP53、OBSCN、LRP2、NEB、PCLO、MUC16、USH2A、CCDC168表达显著上调。CSMD1、SYNE1、RYR1、RYR3、APC、ADGRV1M、DCHS2、KRAS、LRP1B、FAT4显著下调。CSMD3 (b)、DCHS2 (c)、LRP2 (d)、RYR2 (e)和ZFHX4 (f)的高表达与CRC中「较短的PFS显著负相关」

03 「基于显著体细胞突变基因表达的CRC一致性聚类分析」

使用Consensus Cluster Plus R程序进行一致性聚类。在一致指数k=3时,累积分布函数的范围最小(图4(a))。在=k3时,分析具有最好的delta区域得分(图4(b))。在620份CRC样本中,根据显著体细胞突变基因的表达水平,共「鉴定出 三种CRC亚型」,包括C1 (n=453)、C2 (n=158)和C3 (n=9)(图4(c)和4(d))。我们的数据显示,「由「「体细胞突变基因表达水」」平定义的聚类亚型与CRC患者的异质性密切相关」(图5(a))。

「图4:基于显著体细胞突变基因表达的CRC一致性聚类分析」

(a) CRC亚型的累积分布函数分析。(b) CDF曲线下面积的相对变化(CDF delta面积)。在k=3时,分析有最好的delta得分。(c)在CRC样本中确定的CRC的三种亚型。(d) 对3种亚型的CRC进行PCA分析。(这三种亚型的区分感觉不是很开)

04 「结直肠癌相关亚群体突变基因的临床病理特征分析」

基于突变特征和关键基因改变形成的亚组进行无监督聚类,「以建立与患者临床和病理特征以及无进展生存期相关的CRC的基因组分类」。如图5(b)所示,亚型C1有最长的PFS,中位时间为8.2年,而亚型C2和C3分别有4.1和2.7年的PFS。此外,我们发现「3种亚型与分级和转移阶段有关」。亚型C1包含更多的早期,亚型C2为中度恶性,而亚型3的恶性程度最大(图5(c)-5(f))。(思路上:热图展示三种亚群的确存在差异;接着将划分的亚群与生存预后,以及临床分级分期关联)

「图5:结直肠癌相关亚群体突变基因的临床病理特征分析」

(a)显示CRC亚组中「体细胞突变基因表达水平的热图」。(b) Kaplan Meier生存分析CRC中各亚组与PFS时间的相关性。(c) 「T分期」在CRC不同亚组的分布分析。(d) 「N分期」在CRC不同亚组的分布分析。(e) 「M分期」在CRC不同亚组的分布分析。(f)不同组别的得分的分布分析。

05 「CRC中免疫浸润与基因组一致性簇的相关性」

在亚型分析中,我们用CIBERSORT算法比较了三个亚组的免疫浸润情况。我们发现B细胞原生,T细胞、CD8+、T细胞CD4+记忆激活、T细胞γ δ、NK细胞静息、巨噬细胞M0/M2、髓样树突状细胞激活、肥大细胞激活、肥大细胞静息在三组间存在差异(图6)。

此外,C3亚型比其他亚型产生更多的B细胞原生产物;C3亚型T细胞CD4+记忆静息/激活和NK细胞静息显著低于C1和C2亚型;C2亚型巨噬细胞M0/M2、髓样树突状细胞活化、肥大细胞活化显著高于C1和C3亚型;有趣的是,C2亚型的肥大细胞休止显著低于C1和C3亚型(图6(b)和6(c))。

「图6:免疫浸润和结直肠癌基因组一致性簇之间的关联。」

(a)利用CIBERSORT算法对三个亚组免疫细胞进行免疫浸润的热图分析。(b-c)用CIBERSORT算法显示三个亚组的免疫渗透水平的Box-plot分析。

4.结论和局限性

目前的研究证实了体细胞突变基因的预测意义,并提供了具有临床相关性的新的基因组分类。这一发现为结直肠癌的研究和结直肠癌类型的分子分类提供了基础,从而通过解释基因组数据指导精确治疗。

这一研究仍有一定的局限性。首先,本研究中使用的CRC患者数据虽然是从TCGA中提取的,但样本量仍然较小; 第二,尽管新提出的亚型具有明显的临床意义,但对其潜在机制知之甚少。因此,我们必须研究这三种亚型的分子机制。第三,我们没有对hub基因功能的验证。

5.总结与点评

本篇文章通过结合转录组、基因组数据与临床信息分析了CRC的体细胞突变图谱、鉴定了与CRC预后相关的突变状态基因,以及突变基因的表达谱与生存分析的关系。基于突变基因,作者进一步基于一致性聚类将CRC样本分为3簇,并分析了3簇与预后的关系以及其与临床TMN分期等特征的关系。接着作者进一步统计了3簇中免疫细胞浸润发生的变化。

思路上,此项研究在转录组分析时用的样本较少;CRC有很多影响因素,作者探究的几个突变基因与生存相关应该通过lasso回归来验证一下;在机制上作者的确没有做什么关于3簇的区别,以及hub基因部分作者并没有进行验证;此外PCA分三簇的效果感觉也不明显。在数据挖掘要求越来越严的情况下,简单的套路不能大行其道了,感兴趣的小伙伴们可以思考下,如何深入,如何关联当前的热点(或者经典)以及进一步深入有趣的机制层面。