DSTG:基于图形的卷积网络对空间转录组数据进行去卷积
之前小编已经给大家介绍了三个利用神经网络进行空间转录组分析的方法,今天再追加一个基于图形的卷积网络对空间转录组数据进行去卷积的新方法:DSTG。
最近发展的空间转录组学(ST)能够将组织切片中不同点的空间信息与每个spots内细胞的RNA丰度联系起来,这对了解组织细胞结构和功能尤为重要。然而,对于这样的ST数据,由于一个spot通常比单个细胞大,在每个spot测量的基因表达是来自具有异质细胞类型的混合细胞。因此,需要对每个spot的ST数据进行拆分,以揭示该空间spot的细胞组成。
DSTG是什么?
研究团队提出了一种新的基于图形的人工智能方法即DSTG,通过基于图形的卷积网络对ST数据进行去卷积。DSTG可利用scRNA-seq数据揭示ST数据中的细胞混合物。
研究团队假设在一个spot上捕获的基因表达是由位于该spot上的细胞混合物贡献的。其策略是使用scRNA-seq衍生的合成ST数据,称为 "pseudo-ST",通过半监督学习预测real-ST数据中的细胞组成。
首先,DSTG从scRNA-seq数据构建合成pseudo-ST数据。DSTG使用共享邻近算法学习pseudo-ST数据和real-ST数据的spot映射链接图,链接图捕获spot之间的内在拓扑相似性,并将pseudo-ST和real-ST数据合并到同一个图中进行学习。然后,基于链接图,使用半监督图卷积网络(GCN)学习局部图结构和基因表达模式的潜在表示,以解释spot的各种细胞组成。
DSTG的性能评估
DSTG不仅在不同技术生成的合成空间数据上表现出优异的性能,而且还有效地识别了小鼠皮层、海马切片和胰腺肿瘤组织中细胞的空间组成:通过对从外周血单核细胞(PBMC)和其他组织生成的合成数据进行基准评估,DSTG在预测的细胞混合和实际的细胞组成之间显示了良好的准确性;同时,DSTG在复杂组织(包括小鼠皮层、海马和人胰腺肿瘤切片)的ST数据上也显示出与H&E染色观察高度一致的结果。
DSTG在基准测试数据集上的性能:研究团队将DSTG和SPOTlight应用于10个PBMC合成数据进行比较,结果表明与SPOTlight相比,DSTG的JSD值较低(平均JSD=0.12),说明在不同技术平台生成的PBMC数据集上,DSTG的精确度高于SPOTlight。除PBMC外,为了检查DSTG在其他不同组织上的性能,研究团队纳入了来自不同组织和技术的八个其他scRNA-seq数据,以生成基准合成数据。根据这八个额外scRNA-seq数据的合成数据,将DSTG与SPOTlight进行比较,使用JSD评估指标,DSTG的预测结果仍然优于SPOTlight。
此外,研究团队还利用不同spot数量、库大小和可变基因的离散合成数据验证了DSTG的稳定性。
* JSD是一种度量两个概率分布之间相似性的距离指标。JSD值越小,表示两个分布之间的相似性越高,因此表示跨点估计的细胞类型组成的准确性越高。
利用scRNA-seq数据,DSTG对ST数据的空间去卷积准确地重建了小鼠大脑皮层的结构。每个定位点的识别的异质细胞比例由各点的饼状图显示,这些异质细胞在皮层区域的存在得到证实,表明DSTG的预测具有很高的准确性和敏感性。
DSTG对ST数据的空间分解准确地识别了海马切片内的不同细胞类型;DSTG还准确预测了细胞类型特异性基因的表达。
在胰腺导管腺癌(PDAC)数据集上,DSTG的结果与独立的组织学注释一致,证明了其从肿瘤组织的ST数据中准确识别细胞成分的能力。
DSTG为推断异质细胞亚群之间的功能关系铺平了道路,其依据是它们在组织spots中的组成和共定位。这包括跨越相邻spots的细胞间交流,这为未来以空间分辨率的方式研究完整的相互作用组提供了可能性。此外,由于组织的精确组成可能因病人个体而异,未来细胞亚群的空间组成对病人有预后价值。研究团队预计,使用DSTG的空间去卷积将有助于未来病人的预后和病理评估。
文中提到的所有函数都是作为Python软件实现,可通过Github获取:https://github.com/Su-informatics-lab/DSTG.
首发公号:国家基因库大数据平台
参考文献
Song Q, Su J. DSTG: deconvoluting spatial transcriptomics data through graph-based artificial intelligence[J]. Briefings in Bioinformatics, 2021.
图片来源于Briefings in Bioinformatics官网和参考文献,如有侵权请联系删除。
相关文章
- 从本体论开始说起——运营商关系图谱的构建及应用
- 如何成为一名数据科学家?
- 从未见过的堂兄杀了人,你的DNA是关键证据
- 20个安全可靠的免费数据源,各领域数据任你挑
- 20个安全可靠的免费数据源,各领域数据任你挑
- 阿里云李飞飞:All in Cloud时代,云原生数据库优势明显
- 基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)
- 大数据告诉你:10年漫威,到底有多少角色
- TigerGraph:实时图数据库助力金融风控升级
- Splunk利用Splunk Connected Experiences和Splunk Business Flow 扩大数据访问
- 大数据开发常见的9种数据分析手段
- 以免在景区看人,我爬了5W条全国景点门票数据...
- 【实战解析】基于HBase的大数据存储在京东的应用场景
- 数据科学家告诉你哪些计算机科学书籍是你应该看的
- Kafka作为大数据的核心技术,你了解多少?
- Spring Boot 整合 Redis 实现缓存操作
- 大数据学习必须掌握的五大核心技术有哪些?
- 基于Antlr在Apache Flink中实现监控规则DSL化的探索实践
- 甲骨文再次被Gartner评为分析型数据管理解决方案魔力象限领导者
- 爬取吴亦凡微博102118条转发数据,扒一扒流量的真假