zl程序教程

您现在的位置是:首页 >  其它

当前栏目

凭什么说TCGA和GEO数据挖掘的结论不可靠呢

什么 可靠 数据挖掘 Geo TCGA 结论
2023-06-13 09:15:18 时间

前些天在《生信技能树》公众号提到了一个开放式讨论:富集分析排名第一的通路就是目标吗,我自己也给出来了一个证据链加强的措施,就是干湿结合:转录组差异分析不足以说明你的目标基因调控某个通路 ,然后蛮多小伙伴看完了之后表示对数据挖掘的结论持保留态度。

孙中山先生曾经说过:“天下大势,浩浩汤汤,顺之者昌,逆之者亡。” 生命科学领域的研究,一切终将数字化,意味着生物信息学是主旋律,无论您信或者不信,一味地抵抗无疑是螳臂当车。

持有这样迂腐陈旧观念的不在少数,比如文章:《IFI44L is a novel tumor suppressor in human hepatocellular carcinoma affecting cancer stemness, metastasis, and drug resistance via regulating met/Src signaling pathway》,因为他们自己研究里面这个IFI44L基因在癌症里面是低表达,而且它表达量越低肝癌病人预后越差,非常符合守旧派的抑癌基因的理念。主要是实验数据:the expression of IFI44L in 217 pairs of normal liver and HCC tumor tissues were analyzed by IHC and Western blotting analysis.

但是作者在查询这个IFI44L基因的前期研究,发现了它在胰腺癌里面被发表了一个完全相反的结论,在癌症样品里面高表达而且表达量越高预后越差,就在讨论里面说因为这个结论来源于TCGA和GEO数据挖掘,可靠性存疑:

可靠性存疑

我看了看这个文章,确实发表的杂志不怎么样,Oncotarget. 2017; 8:52571-52583. https://doi.org/10.18632/oncotarget.16732

这个数据挖掘挖掘文章,针对4个表达量矩阵独立差异分析后,对有统计学显著的表达量上下调基因取交集:

  • 四个数据集是: (“GSE15471”, “GSE18670”, “GSE28735” and “GSE58561”).
  • 交集是:13 DEGs (MYOF, SLC6A6, S100P, HK2, IFI44L, OSBPL3, IGF2BP3, PDK4, IL1R2, ERO1A, EGLN3, PLAC8 and ACSL5) (除了PDK4外的基因都是上调)

如下所示:

拿到的表达量矩阵后续分析大同小异,公众号推文在:

四个gse数据集就是做四次而已。

然后去TCGA数据库里面看这些交集上下调基因是否有预后意义,发现 upregulation of ERO1A (P=0.0005), OSBPL3 (p= 0.0153) and IFI44L (P=0.0040) were significantly correlated with shorter overall survival and shorter median survival time

可以看到确实这个IFI44L基因是在癌症样品里面高表达而且表达量越高预后越差

表达量越高预后越差

生存分析是目前肿瘤等疾病研究领域的点睛之笔!我在生信技能树多次分享过生存分析的细节;

起码数据挖掘是经得起复现的

这个2017的Oncotarget文章的结论是: three genes (ERO1A, OSBPL3 and IFI44L) are significantly upregulated in PDAC and the expression level of these three genes are negative correlation with the overall survivals of patients with PDAC. 是基于GEO数据库的4个gse表达量矩阵,以及TCGA数据库的生存预后信息。

而Huang et al. BMC Cancer (2018) 是基于217 pairs of normal liver and HCC tumor tissues were analyzed by IHC and Western blotting analysis.

首先呢,这两天有冲突的结论是在两个完全不同的癌症领域,不一定要互相掐架。不过起码217个肝癌病人的实验数据是不可能验证和复现,但是TCGA和GEO数据挖掘的结论是可以随时随地任意复现的。当然了,复现这个过程需要生物信息学基本能力。再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理

把R的知识点路线图搞定,如下:

  • 了解常量和变量概念
  • 加减乘除等运算(计算器)
  • 多种数据类型(数值,字符,逻辑,因子)
  • 多种数据结构(向量,矩阵,数组,数据框,列表)
  • 文件读取和写出
  • 简单统计可视化
  • 无限量函数学习

学徒作业

针对四个数据集独立做差异fix,是: (“GSE15471”, “GSE18670”, “GSE28735” and “GSE58561”). 然后取交集,然后跟tcga的差异分析取交集。

只需要验证 (ERO1A, OSBPL3 and IFI44L) 这3个基因是不是在癌症里面高表达,而且表达量越高病人预后越差即可。