您现在的位置是：首页 > 其它

当前栏目

scRNA分析|Marker gene 可视化以及细胞亚群注释--你是如何人工注释的？

如何分析以及 -- 可视化注释细胞人工

2023-06-13 09:15:02 时间

细胞类型注释是单细胞转录组中非常重要的环节，2021年 Nature protocols 中发表了一篇细胞注释的教程综述Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods，含有细胞注释常见的流程，以及每个步骤可用的软件以及一些资源和建议。

主要就是以下三个步骤（模块），自动注释，人工注释 以及验证。

人工注释需要依托于各种资源（loupe，数据库，文献等）获取各个cluster的基因的线索来完成注释，可能会存在一些主观因素。

每个人的人工注释方式可能会有区别，本文使用笔者采用较多的人工注释方式对 scRNA分析|多样本merge 和 harmony去批次得到的数据进行注释。

一 Marker gene 可视化

人工注释的方式有很多种，也许比较常见的就是根据自己整理的 Marker gene（数据库，文献等），绘制一些常见的图形（vln plot，dot plot，feature plot，heatmap ），再结合各个cluster的差异基因 来进行注释。

根据自定义的Marker gene 绘制图形

library(Seurat) library(tidyverse)#点图 可以接受list
Marker = list(Epi=c("EPCAM"),Endo=c("PECAM1","PLVAP"),
                      Fibroblast=c("COL3A1","COL1A1","COL1A2"),
                      IM=c('PTPRC'),
                      B=c("CD79A","CD79B","CD19"),
                      T=c("CD3D","CD3E","CD8A","CD4"),
                      Myeloid=c("C1QA","C1QB","CD163","CD1C")
)

Marker2 = c("EPCAM",
               "PECAM1","PLVAP",
               "COL3A1","COL1A1","COL1A2",
               'PTPRC',
               "CD79A","CD79B","CD19",
               "CD3D","CD3E","CD8A","CD4",
               "C1QA","C1QB","CD163","CD1C"
)

#点图 可以接受list
DotPlot(sce2,features=Marker2,group.by='RNA_snn_res.0.5')

VlnPlot(sce2,features = Marker22,pt.size = 0,ncol = 5)

FeaturePlot(sce2, features = c("EPCAM","PECAM1","COL3A1",'PTPRC',
                               "CD79A","CD79B","CD3D","CD3E","C1QA","C1QB") )

然后根据Marker gene的表达量多少以及在各个cluster中特异性表达的情况，完成各个cluster的注释。此处仅为示例，marker gene的选择和注释结果可能不是很准确。

注：实际的人工注释过程可能很复杂，需要根据多结合一些信息进行注释。比如

（1）每个人都可以有也会有自己的marker gene 列表；

（2）Marker gene 可能没有表达或者低表达；

（3）Marker gene 可能并不是特异表达的，会在很多cluster中有表达；

（4）某个cluster可能表达很多种 celltype的 marker gene ；

（5）还需要结合cluster的差异基因确定。

二亚群注释

根据以上的Marker gene的各种表型以及各个cluster的差异基因，知道了各个cluster对应的celltype ，那么怎么可视化或者加到metadata中呢？

2.1 向量注释 - Seurat官网

首先通过向量按顺序指定每一个clustyer的细胞类型，注意第一个celltype对应的是cluster0 。通过RenameIdents函数完成注释Seurat - Guided Clustering Tutorial • Seurat (satijalab.org)

new.cluster.ids <- c('Epi','Epi','Myeloid','Fibroblast','Epi','Epi','Fibroblast','Epi','T','Epi',
                     'Fibroblast','Epi','Endo','un','Epi','Epi','Fibroblast','un','Fibroblast')
names(new.cluster.ids) <- levels(sce2)
sce2 <- RenameIdents(sce2, new.cluster.ids)
#可以添加到metadata中 ,方便后续使用
sce2@meta.data$new.cluster.ids <- Idents(sce2)

DimPlot(sce2, reduction = 'umap', 
        label = TRUE, pt.size = 0.5) + NoLegend()

2.2 直接指定

与上面类似，但是分别指定各个cluster对应的celltype，更不容易出错，推荐！

Idents(sce2) <- "seurat_clusters"
sce2 <- RenameIdents(sce2,"0"="Epi",
                      "1"="Epi", 
                      "2"="Myeloid", 
                      "3"= "Fibroblast", 
                      "4"= "Epi", 
                      "5"= "Epi",
                      "6"= "Fibroblast", 
                      "7"= "Epi", 
                      "8"= "T",
                      "9"= "Epi" ,
                      "10"="Fibroblast",
                      "11"="Epi", 
                      "12"="Endo", 
                      "13"= "un", 
                      "14"= "Epi", 
                      "15"= "Epi",
                      "16"= "Fibroblast", 
                      "17"= "un", 
                      "18"= "Fibroblast"
                      )
sce2@meta.data$celltype <- Idents(sce2)

DimPlot(sce2, reduction = 'umap', 
        label = TRUE, pt.size = 0.5) + NoLegend()

2.3 metadata 中添加分群信息

metadata是含有很多重要信息的数据框，是后续可视化的数据来源。使用数据框的处理方式，循环添加。注意的是cluster从0开始，需要减1。

sce2$Anno = "NA"
celltype = c('Epi','Epi','Myeloid','Fibroblast','Epi','Epi','Fibroblast','Epi','T','Epi',
         'Fibroblast','Epi','Endo','un','Epi','Epi','Fibroblast','un','Fibroblast')

#for循环添加
sub_length = length(unique(sce2$seurat_clusters)) - 1
for (i in 0:sub_length){ 
  sce2$Anno[sce2$seurat_clusters==i] = celltype[i+1]
  }

# 绘制注释umap图
DimPlot(sce2, reduction = 'umap', group.by='Anno',
label = TRUE, pt.size = 0.5) + NoLegend()
DimPlot(sce2, reduction = 'umap', label = TRUE, pt.size = 0.5) + NoLegend()

注：当前Idents为Anno时候，加不加 group.by='Anno' 结果一致。

最后看一下metadata中的信息，保存数据以待后续使用。

head(sce2@meta.data)
save(sce2,file =  "sce.anno.RData")

需要美化umap图的话，可以参考

跟SCI学umap图| ggplot2 绘制umap图，坐标位置，颜色，大小还不是你说了算

跟SCI学Pseudotime 2 | 将拟时序分析结果映射到 umap 中

◆ ◆ ◆ ◆ ◆

精心整理（含图PLUS版）|R语言生信分析，可视化（R统计，ggplot2绘图，生信图形可视化汇总）

猜你喜欢

Mark Shuttleworth：桌面对我们来说仍然重要
Linux林纳斯：开拓无限可能（linux林纳斯）
面试突击91：MD5 加密安全吗？
Harbor开源项目在GOTC大会的PPT分享及视频
[javaSE] 进制转换（二进制十进制十六进制八进制）详解编程语言
对象的扩展
Lightroom Classic 2022 for Mac(照片编辑软件)
如何在Linux中执行Redis（怎样执行redis）
textarea有没有value属性
MySQL 5.5安装指南：快速上手帮助你快速入门（mysql5.5安装教程）
让Linux帮你打造专属网站（linux建网站）
fatal error C1045: 编译器限制 : 链接规范嵌套太深
正则表达式入门教程（简明版）
树莓派小车C语言循迹,自动循迹小车_单片机/STM32/树莓派/Arduino/开发板创意项目-聚丰项目-电子发烧友网…[通俗易懂]
学习计划（mysql 一周内）
深入理解AQS--jdk层面管程实现【管程详解的补充】
java 四舍五入保留小数的几种方式
一个特牛的日期时间判断正则表达式
iOS开发—集成百度地图完善版详解手机开发
Hibernate addResource方法：指定实体类的映射文件

zl程序教程

当前栏目

scRNA分析|Marker gene 可视化以及细胞亚群注释--你是如何人工注释的？

2.1 向量注释 - Seurat官网

2.2 直接指定

2.3 metadata 中添加分群信息

相关文章

当前栏目

scRNA分析|Marker gene 可视化 以及 细胞亚群注释--你是如何人工注释的？

2.1 向量注释 - Seurat官网

2.2 直接指定

2.3 metadata 中添加分群信息

相关文章

scRNA分析|Marker gene 可视化以及细胞亚群注释--你是如何人工注释的？