处理前后单细胞转录组数据的整合与否确实影响了分析结论
很多年之前《生信技能树》和《单细胞天地》等公众号都推出来了一个10X单细胞转录组钜惠套餐,详见:2个分组的单细胞项目标准分析,原价15~20万的6个10x单细胞转录组套餐,现价10万。以至于单细胞转录组很快就走人了寻常百姓家,大量的二分组单细胞文章出来了。一般来说每个分组是3个单细胞10x样品,也就是说6个单细胞样品从送样,建库,测序(100G)数据量,平均每个10x的单细胞转录组样品出8000个左右的细胞。针对这个项目的每个样品的单细胞表达量矩阵整合后的降维聚类分群,生物学命名,看2个分组的不同细胞亚群比例差异,看同一个细胞亚群在2个分组是否有表达量上下调以及通路变化。
但是单细胞转录组有一个问题, 每个样品是独立的建库测序,理论上每个分组是3个单细胞10x样品都是独立的,这个时候除了有分组差异,还有样品差异,绝大部分情况下我们的样品差异是需要抹去的,但是不能影响我们想看的分组差异。所以我们推荐是harmony整合,但实际操作过程中,已经发表的文章都有自己的选择。
首先看看整合两个分组单细胞的文章
比如文章:《Degenerative and regenerative pathways underlying Duchenne muscular dystrophy revealed by single-nucleus RNA sequencing》,数据集是 GSE156498,很明显可以看到这个数据集里面的两个分组的多个单细胞样品是被整合了的:
GSM4732631 TA_WT snRNA-seq
GSM4732632 TA_D51 snRNA-seq
虽然这个研究比较省钱,就两个分组, 每个分组就单个样品:
两个分组的多个单细胞样品是被整合了的
再看看不整合的文章
比如:Rosen *et al. Genome Medicine (2022)*的文章,标题是:《Single-cell RNA transcriptome analysis of CNS immune cells reveals CXCL16/CXCR6 as maintenance factors for tissue-resident T cells that drive synapse elimination》,该研究里面的单细胞转录组样品是4个,分成两组,但是很明显作者在进行这个数据集的降维聚类分群的时候,并没有做整合,而是简简单单合并不同样品。如下所示:
简简单单合并不同样品
这里有一个很重要的结论,就是无论是CD4还是CD8的T细胞都是大量存在于WNV组,但是在Mock组里面非常稀有。该文章的数据集在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE212199
GSM6513450_F1_barcodes.tsv.gz 5.0 Kb
GSM6513450_F1_features.tsv.gz 272.8 Kb
GSM6513450_F1_matrix.mtx.gz 5.2 Mb
GSM6513451_M1_barcodes.tsv.gz 7.5 Kb
GSM6513451_M1_features.tsv.gz 272.8 Kb
GSM6513451_M1_matrix.mtx.gz 8.2 Mb
GSM6513452_F2_barcodes.tsv.gz 6.9 Kb
GSM6513452_F2_features.tsv.gz 272.8 Kb
GSM6513452_F2_matrix.mtx.gz 7.1 Mb
GSM6513453_M2_barcodes.tsv.gz 7.6 Kb
GSM6513453_M2_features.tsv.gz 272.8 Kb
GSM6513453_M2_matrix.mtx.gz 8.2 Mb
可以看到每个样品是标准的3个文件,我们很容易读取并且harmony整合后降维聚类分群。然后可视化我们默认的基因,可以看到:
harmony整合后降维聚类分群
跟原文一样的,有CD4(第5群)还是CD8(第4和11群)的T细胞,也有B细胞是第14群很稀少,第8群给astrocytes有点勉强,因为它似乎是混合体,在umap也可以看到里面的细胞很明显还可以继续细分。而且我还发现了第6群是Ependymal,应该是被作者忽略了。我们按照样品来分开展示,可以看到:
确实是两个分组的CD4还是CD8的T细胞含量很不一样
确实是两个分组的CD4还是CD8的T细胞含量很不一样,但是小胶质细胞其实并不会出现前面的不整合的时候那样的泾渭分明。最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释
其实这样的基础认知,也可以看基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
后面的一些可视化(一些基因的表达量小提琴图,细胞比例条形图),我们就直接看学徒的图表复现吧,代码真的是超级简单。
学徒作业
降维聚类分群和命名是一切单细胞转录组数据分析的基石,如果这个步骤不能确定下来后面的很多分析都是有可能需要推倒重来。大家可以以这个数据集为例子,走整合以及不整合的两个不同选择后,看看是否影响作者的CXCL16/CXCR6的结论。所以需要仔细阅读文章:《Single-cell RNA transcriptome analysis of CNS immune cells reveals CXCL16/CXCR6 as maintenance factors for tissue-resident T cells that drive synapse elimination》
相关文章
- 23篇大数据系列(三)sql基础知识(史上最全,建议收藏)
- 表达谱数据中相同基因如何处理
- 处理异步加载数据的获取
- 使用JAVA获取ActiveMQ队列数据和状态
- 故障分析 | Greenplum 数据状态异常处理
- 自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据|附代码数据
- 测序数据GC含量异常该如何处理?
- mysql 8.0中 树形数据的查询
- 批量处理数据的技巧~从零到壹:10元转录组分析
- 百度高德地图JS-API学习手记:地图基本设置与省市区数据加载
- Sql Server使用cursor处理重复数据过程详解
- 处理MySQL中处理相同数据的技巧(mysql相同的数据)
- 处理Oracle如何快速处理列重复数据(oracle列重复数据)
- 时间处理Java中Redis数据过期时间的策略(redisjava过期)
- MySQL中处理二进制数据的技巧(mysql二进制数据)
- 5300亿笔!微信支付宝们火了 央行重磅数据刚刚发布
- 用Set命令管理Redis数据的方法(redisset命令)
- 高效处理数据,sqlserver软件是首选(sqlserver软件)
- Mysql在处理数据方面,能够适应多大的数据量?(mysql适合多大数据量)
- MSSQL可以处理大数据吗?(MSSQL能做大数据吗)
- 利用IF判断实现MySQL数据查询与处理(mysql中使用if判断)
- 25字中文标题MySQL表中不允许重复数据的处理方法(mysql中不能重复)
- MySQL重复数据不得闯关实现数据唯一性的处理方法(mysql中不允许重复)
- MySQL中使用PK和AI约束实现数据自动递增(mysql中pk ai)
- 流处理技术结合Redis实现数据去重(流处理redis去重)
- 利用Redis队列来实现数据存储的结构(redis队列存储结构)
- 引入机器学习,Google表格可以帮你自动把数据做成图表
- sql随机抽取几条数据的方法推荐
- 解析bitmap处理海量数据及其实现方法分析