您现在的位置是：首页 > 其它

当前栏目

两次差异分析结果的比较不要局限于韦恩图

分析比较结果差异不要两次韦恩图局限于

2023-06-13 09:15:56 时间

初学者最喜欢怀疑自己的分析是否正确，比如差异分析的时候就容易陷入上下调基因数量的对比问题，文章可能是上下调一千附近，但是学员自己复现的时候就数量对不上。

其实这个问题并不在于上下调基因数量，应该是看质量，这样的对比才有意义。

最初级的就是韦恩图啦

大家在做差异分析结果比较的时候，喜欢看两次分析结果的基因交集，比如韦恩图。这样的简单粗暴的思考逻辑很容易理解，但是就会出现一下啼笑皆非的提问，比如有学生问，文献差异分析结果是1000个上调基因500个下调基因，但是自己做出来仅仅是50个和25个，其实仅仅是因为使用的筛选阈值不一样。如果画一个差异变化倍数（logFC）散点图，就可以很直观的给出两次分析结果差异了。

差异分析相信大家都不陌生了，基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可；

两个差异分析的结果的对比，韦恩图是比较符合直觉的展现方式。我们在《生信菜鸟团》有一个专辑反复提到过，大家可以自行去阅读：

两个差异分析的结果的对比

其次是变化倍数的散点图

比如我们可以在PBMC3K数据集里面，做两次单细胞差异分析：

CD14_deg = FindMarkers(sce,ident.1 = 'CD14+ Mono',
                  ident.2 = 'B')
head(CD14_deg[order(CD14_deg$p_val),])
FCGR3A_deg = FindMarkers(sce,ident.1 = 'FCGR3A+ Mono',
                       ident.2 = 'B')
head(FCGR3A_deg[order(FCGR3A_deg$p_val),])

然后拿两次差异分析各自统计学显著的基因的交集去绘图，代码如下所示：

ids=intersect(rownames(CD14_deg),
              rownames(FCGR3A_deg))
df= data.frame(
  FCGR3A_deg = FCGR3A_deg[ids,'avg_log2FC'],
  CD14_deg = CD14_deg[ids,'avg_log2FC']
)
library(ggpubr)
ggscatter(df, x = "FCGR3A_deg", y = "CD14_deg",
          color = "black", shape = 21, size = 3, # Points color, shape and size
          add = "reg.line",  # Add regressin line
          add.params = list(color = "blue", fill = "lightgray"), # Customize reg. line
          conf.int = TRUE, # Add confidence interval
          cor.coef = TRUE, # Add correlation coefficient. see ?stat_cor
          cor.coeff.args = list(method = "pearson",  label.sep = "\n")
)

可以看到相关性，挺好的。详见：两次单细胞差异分析后的结果进行相关性散点图绘制

相关性确实是可以说明我们的两次差异分析是一致的，但是很多时候，我们并不是想重复前人的数据分析结果，而是确实先看看两次差异分析的结果的不一致的地方。

更高级的是模式分类

参考2015的文章：《ACTN4 and the pathways associated with cell motility and adhesion contribute to the process of lung cancer metastasis to the brain》

一个肺癌患者：A 47-year-old female patient ，取3个样品：

The adjacent benign lung tissue (N16),
the original lung cancer (T16),
the metastatic brain tumor (T30)

3个样品就是3个分组，所以只能是走无重复的转录组差异分析流程，这里作者选择了 DEGseq ，参数很普通，就是：a fold change > 2, P < 0.5, and false discovery rate (FDR) < 0.05

more than900 differentially expressed genes between N16 and T16
more than 800 differentially expressed genes between N16 and T30

但是作者并没有对这两次的差异分析结果列表做韦恩图，反而是做了一个“骚操作”：

classify the differentially expressed genes in eight clusters based on the reads per kb per million reads (RPKM) change tendency of genes in these three types of tissues (N16, T16, and T30),

最后作者关注的是：Cluster 1: expression in N16 > expression in T16 = expression in T30

这个时候的算法来源比较老了，是：Cluster analysis of gene expression dynamics. Proc Natl Acad Sci U S A. 2002;

算是一个启发吧。

写在文末

我在《生信技能树》，《生信菜鸟团》，《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的，有任何疑问欢迎留言讨论，也可以发邮件给我，详细描述你遇到的困难的前因后果给我，我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助，让你茅塞顿开，或者说你的课题大量使用我的技能，烦请日后在发表自己的成果的时候，加上一个简短的致谢，如下所示：

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所（当然包括中国大陆）的时候，如果有这样的情谊，我会优先见你。

猜你喜欢

什么是QoS？
ORA-13852: Tracing for service(module/action) string is not enabled ORACLE 报错故障修复远程处理
Linux服务器：让您业务管理更高效（linux系统服务器）
锁Java应用Redis实现过期锁特性（redisjava过期）
【数据挖掘】神经网络后向传播算法 ( 神经网络分类 | 适用场景 | 优缺点 | 多路前馈神经网络 | 后向传播算法步骤 | 初始化权 | 向前传播输入 )
苹果关闭 iOS 14.6 签名验证，升级 iOS 14.7 后无法再降级
Linux 4.1 带来了什么新东西？
java实现excel下载和上传的工具类详解编程语言
MySQL 中的嵌套查询：实战技巧指南（mysql嵌套查询）
软件开发工业化：架构语言 Fklang 对下一代架构设计的探索
Oracle：探讨数据库的未来发展（oracle论文）
Oracle IP变化把握最新机遇（oracle ip 变化）
html5canvasjs(数字时钟)实例代码