hECA—人类单细胞表达图谱平台
文章信息
题目:hECA: The cell-centric assembly of a cell atlas 期刊:iScience 日期:May 20, 2022 DOI:https://doi.org/10.1016/j.isci.2022.104318
简介:来自清华大学自动化系的张学工课题建立一个人类综合性单细胞图谱平台--hECA(human Ensemble Cell Atlas)1.0版本。这篇文章主要基于细胞为中心(cell-centric)的理念对来自人类多器官的上百万个细胞数据进行了系统性整合工作。 网址:http://eca.xglab.tech
1、数据规模
- 116份已发表单细胞数据集
- 38个人类器官(如下表)与11个组织系统
- 146种细胞类型
- 1,093,299个细胞(43,878个基因)
2、整合方法
(1)uGT:unified giant table
数据储存方式是基于NoSQL数据库语言直接将多数据集合并成巨大的表达矩阵(43878×1093299),以及每个细胞的metadata,例如样本来源、数据集来源,样本信息、细胞类型等等。
(2)uHAF:unified hierarchical annotation framework
使用相同的细胞类型标签体系对合并的数据集进行统一的146种细胞类型注释。
(3)ECAUGT
开发了一个python工具包提供了API接口用于上述大规模数据的有效提取。
- http://eca.xglab.tech/ecaugt/index.html
3、应用场景
文章对该平台的三种可能应用场景进行了阐释。
3.1 'in data' cell sorting
该平台提供了一种新型的基于数据的细胞分选方式。具体来说可从网页界面或者API工具快速筛选特定样本、特定器官、特定基因表达模式的细胞群。文章举了两个小例子。
- 多器官T细胞的代谢通路表达概况
首先使用ECAUGHT"分选"了来自18个器官的T细胞群,简单分为了CD4+与CD8+亚群
然后使用GSVA对代谢相关通路进行了单细胞水平的打分,分析相应的器官活性特征。
- 药物脱靶效应的副作用预测 CD19是CAR-T治疗B细胞淋巴瘤的常见靶点,其神经毒性是其主要副作用之一。 首先在hECA数据库中分选到2566个CD19+,其中53%是B细胞;其余细胞还包括脑内的内皮细胞、小胶质细胞与神经元,这验证了CART治疗的神经毒性。此外在心脏、肺等组织细胞具有高表达,提示了可能的脱靶效应。
3.2 quantitative portraiture
- 基因水平gene portrait 针对选定基因在hECA涉及全部(选定)器官/细胞的表达特征
- 细胞水平cell type portrait 针对特定细胞在不同细胞表达、表达marker等
- 器官水平organ portait 针对特定器官,分析其细胞组成比例等
3.3 label transfer
使用hECA人类特定器官的单细胞表达矩阵(已基于uHAF进行细胞注释)作为reference,使用SingleR建立模型,为用户自己的数据进行细胞类型注释。
文章建立的SingleR注释模型:https://ngdc.cncb.ac.cn/omix/release/OMIX001043
在文章举例说明中,对两个心脏组织细胞注释的准确率可分别达到0.954、0.904;对神经元细胞注释的准确率可达到0.887。
此外为了进一步验证平台数据的可用性,文章分别取其中的肺组织细胞、肺免疫细胞分别代替两篇文献内的control数据仍可得到相似的结果与结论。
- Example disease study: using hECA data as normal control for cancer study
- Example disease study: using hECA for label transfer and normal control in a COVID-19 study
4、不足之处
诚如文章所言,研究存在如下两个主要问题
(1)数据量有限:目前hECA1.0覆盖的人体器官组织单细胞数据较为有限,例如未涉及乳腺组织等。但目前平台已搭建的框架体系,例如uHAF注释系统等为以后纳入新的数据提供了基础。
(2)批次效应问题:hECA对不同数据集仅进行了细胞文库水平(log转换)的标准化处理。而测序平台等批次效应都交给用户自行鉴别、校正。此外平台也提供了器官内不同数据集harmony校正后的整合数据。https://ngdc.cncb.ac.cn/omix/release/OMIX001042
相关文章
- 发现 Linux SpaceFM 文件管理器的威力
- 夯实数据智能底座 共筑数字经济发展“新基石”
- 五分钟教你使用console.log发布公司的招聘信息
- 微软发布 Windows 11 Beta 预览版 Build 22621.1250 和 22623.1250 (KB5023008)
- Windows 11 学院:在 Windows 11 Build 25290 上如何为文件管理器启用标签页拖拽支持
- 微软Windows 11 Dev 预览版 Build 25290 发布:带来新的开始菜单提醒角标
- 微软正用全屏通知提醒 Windows 10 用户免费升级 Windows 11,要点击 5 次才能退出
- Linux Mint 21.2 将于 6 月发布:改进登录屏幕,优化 Pix 图像管理程序等等
- 字节面试也会问SPI机制?
- 微软正式停售 Windows 10 产品密钥 / 许可证:继续提供 ISO 镜像下载,推荐用户升级 Windows 11
- 用复古电脑程序 Toy CPU 学习低级编程
- Windows 11 新功能泄露:现代音量合成器、实验工具和新的文件管理器
- 微软 Windows 11 文件资源管理器全新设计曝光:UI 迎来大修,整合 Microsoft 365
- 对比Pandas,学习PySpark大数据处理
- 微软宣布为Windows 11 21H2设备开启自动更新到22H2版本
- 互联网都在说降本增效,小红书技术团队是怎么做的?
- 微软将继续提供 Windows 10 ISO 镜像下载,即将停售产品密钥 / 许可证
- 微软宣布为Windows 11 21H2 设备开启自动更新到 22H2 版本
- 面试突击:Properties和Yml有什么区别?
- 微软 Windows 11 Beta 预览版 22621.1245 和 22623.1245 (KB5022358) 发布