凭什么说TCGA和GEO数据挖掘的结论不可靠呢
前些天在《生信技能树》公众号提到了一个开放式讨论:富集分析排名第一的通路就是目标吗,我自己也给出来了一个证据链加强的措施,就是干湿结合:转录组差异分析不足以说明你的目标基因调控某个通路 ,然后蛮多小伙伴看完了之后表示对数据挖掘的结论持保留态度。
孙中山先生曾经说过:“天下大势,浩浩汤汤,顺之者昌,逆之者亡。” 生命科学领域的研究,一切终将数字化,意味着生物信息学是主旋律,无论您信或者不信,一味地抵抗无疑是螳臂当车。
持有这样迂腐陈旧观念的不在少数,比如文章:《IFI44L is a novel tumor suppressor in human hepatocellular carcinoma affecting cancer stemness, metastasis, and drug resistance via regulating met/Src signaling pathway》,因为他们自己研究里面这个IFI44L基因在癌症里面是低表达,而且它表达量越低肝癌病人预后越差,非常符合守旧派的抑癌基因的理念。主要是实验数据:the expression of IFI44L in 217 pairs of normal liver and HCC tumor tissues were analyzed by IHC and Western blotting analysis.
但是作者在查询这个IFI44L基因的前期研究,发现了它在胰腺癌里面被发表了一个完全相反的结论,在癌症样品里面高表达而且表达量越高预后越差,就在讨论里面说因为这个结论来源于TCGA和GEO数据挖掘,可靠性存疑:
可靠性存疑
我看了看这个文章,确实发表的杂志不怎么样,Oncotarget. 2017; 8:52571-52583. https://doi.org/10.18632/oncotarget.16732
这个数据挖掘挖掘文章,针对4个表达量矩阵独立差异分析后,对有统计学显著的表达量上下调基因取交集:
- 四个数据集是: (“GSE15471”, “GSE18670”, “GSE28735” and “GSE58561”).
- 交集是:13 DEGs (MYOF, SLC6A6, S100P, HK2, IFI44L, OSBPL3, IGF2BP3, PDK4, IL1R2, ERO1A, EGLN3, PLAC8 and ACSL5) (除了PDK4外的基因都是上调)
如下所示:
拿到的表达量矩阵后续分析大同小异,公众号推文在:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
四个gse数据集就是做四次而已。
然后去TCGA数据库里面看这些交集上下调基因是否有预后意义,发现 upregulation of ERO1A (P=0.0005), OSBPL3 (p= 0.0153) and IFI44L (P=0.0040) were significantly correlated with shorter overall survival and shorter median survival time
可以看到确实这个IFI44L基因是在癌症样品里面高表达而且表达量越高预后越差
表达量越高预后越差
生存分析是目前肿瘤等疾病研究领域的点睛之笔!我在生信技能树多次分享过生存分析的细节;
- 人人都可以学会生存分析(学徒数据挖掘)
- 学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢?
- 基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大?
- 学徒作业-两个基因突变联合看生存效应
- TCGA数据库里面你的基因生存分析不显著那就TMA吧
- 对“不同数据来源的生存分析比较”的补充说明
- 批量cox生存分析结果也可以火山图可视化
- 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析
- 多测试几个数据集生存效应应该是可以找到统计学显著的!
- 我不相信kmplot这个网页工具的结果(生存分析免费做)
- 为什么不用TCGA数据库来看感兴趣基因的生存情况
- 200块的代码我的学徒免费送给你,GSVA和生存分析
- 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强
- KM生存曲线经logRNA检验后也可以计算HR值
起码数据挖掘是经得起复现的
这个2017的Oncotarget文章的结论是: three genes (ERO1A, OSBPL3 and IFI44L) are significantly upregulated in PDAC and the expression level of these three genes are negative correlation with the overall survivals of patients with PDAC. 是基于GEO数据库的4个gse表达量矩阵,以及TCGA数据库的生存预后信息。
而Huang et al. BMC Cancer (2018) 是基于217 pairs of normal liver and HCC tumor tissues were analyzed by IHC and Western blotting analysis.
首先呢,这两天有冲突的结论是在两个完全不同的癌症领域,不一定要互相掐架。不过起码217个肝癌病人的实验数据是不可能验证和复现,但是TCGA和GEO数据挖掘的结论是可以随时随地任意复现的。当然了,复现这个过程需要生物信息学基本能力。再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
学徒作业
针对四个数据集独立做差异fix,是: (“GSE15471”, “GSE18670”, “GSE28735” and “GSE58561”). 然后取交集,然后跟tcga的差异分析取交集。
只需要验证 (ERO1A, OSBPL3 and IFI44L) 这3个基因是不是在癌症里面高表达,而且表达量越高病人预后越差即可。
相关文章
- Java是一种什么语言[通俗易懂]
- Linux split 命令在什么情况下有用?
- 蹲坑的正确姿势是什么_trace设计软件
- mpp文件安装什么软件,打开这个mpp格式(图文细解)
- 探索Linux系统的神秘模块(linux模块是什么)
- MySQL:一种高效可靠的数据库语言(mysql是什么语言)
- 『Redis缓存:快速、可靠的数据存储方式』(什么是redis缓存)
- DevOps 和敏捷:究竟有什么区别?
- MySQL中索引的作用与定义(mysql什么是索引)
- MySQL的三种重要日志详细介绍(mysql三大日志是什么)
- Redis哨兵模式提升高可用性的可靠守护(什么是redis哨兵模式)
- Redis集群构建高效多机共享储存机制(redis集群是什么意思)