zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

处理前后单细胞转录组数据的整合与否确实影响了分析结论

数据 处理 分析 影响 整合 单细胞 前后 转录
2023-06-13 09:15:18 时间

很多年之前《生信技能树》和《单细胞天地》等公众号都推出来了一个10X单细胞转录组钜惠套餐,详见:2个分组的单细胞项目标准分析,原价15~20万的6个10x单细胞转录组套餐,现价10万。以至于单细胞转录组很快就走人了寻常百姓家,大量的二分组单细胞文章出来了。一般来说每个分组是3个单细胞10x样品,也就是说6个单细胞样品从送样,建库,测序(100G)数据量,平均每个10x的单细胞转录组样品出8000个左右的细胞。针对这个项目的每个样品的单细胞表达量矩阵整合后的降维聚类分群,生物学命名,看2个分组的不同细胞亚群比例差异,看同一个细胞亚群在2个分组是否有表达量上下调以及通路变化。

但是单细胞转录组有一个问题, 每个样品是独立的建库测序,理论上每个分组是3个单细胞10x样品都是独立的,这个时候除了有分组差异,还有样品差异,绝大部分情况下我们的样品差异是需要抹去的,但是不能影响我们想看的分组差异。所以我们推荐是harmony整合,但实际操作过程中,已经发表的文章都有自己的选择。

首先看看整合两个分组单细胞的文章

比如文章:《Degenerative and regenerative pathways underlying Duchenne muscular dystrophy revealed by single-nucleus RNA sequencing》,数据集是 GSE156498,很明显可以看到这个数据集里面的两个分组的多个单细胞样品是被整合了的:

GSM4732631 TA_WT snRNA-seq
GSM4732632 TA_D51 snRNA-seq

虽然这个研究比较省钱,就两个分组, 每个分组就单个样品:

两个分组的多个单细胞样品是被整合了的

再看看不整合的文章

比如:Rosen *et al. Genome Medicine (2022)*的文章,标题是:《Single-cell RNA transcriptome analysis of CNS immune cells reveals CXCL16/CXCR6 as maintenance factors for tissue-resident T cells that drive synapse elimination》,该研究里面的单细胞转录组样品是4个,分成两组,但是很明显作者在进行这个数据集的降维聚类分群的时候,并没有做整合,而是简简单单合并不同样品。如下所示:

简简单单合并不同样品

这里有一个很重要的结论,就是无论是CD4还是CD8的T细胞都是大量存在于WNV组,但是在Mock组里面非常稀有。该文章的数据集在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE212199

GSM6513450_F1_barcodes.tsv.gz 5.0 Kb
GSM6513450_F1_features.tsv.gz 272.8 Kb
GSM6513450_F1_matrix.mtx.gz 5.2 Mb
GSM6513451_M1_barcodes.tsv.gz 7.5 Kb
GSM6513451_M1_features.tsv.gz 272.8 Kb
GSM6513451_M1_matrix.mtx.gz 8.2 Mb
GSM6513452_F2_barcodes.tsv.gz 6.9 Kb
GSM6513452_F2_features.tsv.gz 272.8 Kb
GSM6513452_F2_matrix.mtx.gz 7.1 Mb
GSM6513453_M2_barcodes.tsv.gz 7.6 Kb
GSM6513453_M2_features.tsv.gz 272.8 Kb
GSM6513453_M2_matrix.mtx.gz 8.2 Mb

可以看到每个样品是标准的3个文件,我们很容易读取并且harmony整合后降维聚类分群。然后可视化我们默认的基因,可以看到:

harmony整合后降维聚类分群

跟原文一样的,有CD4(第5群)还是CD8(第4和11群)的T细胞,也有B细胞是第14群很稀少,第8群给astrocytes有点勉强,因为它似乎是混合体,在umap也可以看到里面的细胞很明显还可以继续细分。而且我还发现了第6群是Ependymal,应该是被作者忽略了。我们按照样品来分开展示,可以看到:

确实是两个分组的CD4还是CD8的T细胞含量很不一样

确实是两个分组的CD4还是CD8的T细胞含量很不一样,但是小胶质细胞其实并不会出现前面的不整合的时候那样的泾渭分明。最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释

其实这样的基础认知,也可以看基础10讲:

后面的一些可视化(一些基因的表达量小提琴图,细胞比例条形图),我们就直接看学徒的图表复现吧,代码真的是超级简单。

学徒作业

降维聚类分群和命名是一切单细胞转录组数据分析的基石,如果这个步骤不能确定下来后面的很多分析都是有可能需要推倒重来。大家可以以这个数据集为例子,走整合以及不整合的两个不同选择后,看看是否影响作者的CXCL16/CXCR6的结论。所以需要仔细阅读文章:《Single-cell RNA transcriptome analysis of CNS immune cells reveals CXCL16/CXCR6 as maintenance factors for tissue-resident T cells that drive synapse elimination》