Nature Machine Intelligence | 使用自监督图像表示学习框架精准预测分子特性和药物靶点
作者 | 赵晏浠 编辑 | 赵晏浠
论文题目:
Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework
今天给大家介绍的是发表在nature machine intelligence上的工作《Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework》。药物的临床疗效和安全性取决于其在人体中的分子特性和靶点。然而,对人类甚至动物模型中的所有化合物进行蛋白质组范围的评估具有挑战性。作者提出了一个名为 ImageMol 的无监督预训练深度学习框架,对 1000 万个未标记的类药物生物活性分子进行了预训练,以预测候选化合物的分子靶点。ImageMol 框架旨在根据来自像素的分子的局部和全局结构特征,从未标记的分子图像中预训练化学表征。
一、研究背景
药物发现和开发是一项具有挑战性的多维任务,需要优化候选化合物的重要特性,包括药代动力学、功效和安全性。由于随机对照试验缺乏疗效,以及候选化合物的药代动力学和安全性未知,药物开发成本不断增加。传统的实验方法过于耗时耗力,计算方法和技术可以在整个药物发现和开发过程中显著降低成本和时间,因此被认为是有前途的。人工智能技术的兴起推动了它们在药物设计和目标识别中的应用。基本挑战之一是如何从化学结构中学习分子表征。计算机视觉无监督学习的最新进展表明,可以将基于图像的无监督预训练模型应用于计算药物发现。
二、模型与方法
ImageMol预训练策略的核心是通过考虑三个原则来对分子进行视觉表示:一致性、相关性和合理性。这些原则引导 ImageMol 从分子图像中捕捉有意义的化学知识和结构信息。一致性是指同一化学结构在不同图像中的语义信息是一致的,如-OH、=O、苯。相关性是指同一图像的不同增强在特征空间中是相关的。例如,mask后图像的分布应该接近原始图像的分布。合理性是指分子结构必须符合化学常识。模型需要认识分子的合理性,以促进对分子结构的理解。与基于图和基于 SMILES 的预训练方法(它们只考虑一致性或只考虑相关性)不同,ImageMol 是一种基于分子图像的预训练框架,通过五个辅助任务综合考虑多个原则。
在预训练中,使用来自 PubChem的约 1000 万个未标记分子进行无监督预训练。ImageMol 的预训练包括两个步骤,即数据扩充和训练过程。在预训练阶段选择了三个增强,RandomHorizontalFlip、RandomGrayscale和 RandomRotation,它们不改变分子图像的原始结构,让模型学习数据增强的不变性。ResNet18作为分子编码器。在使用数据增强获得分子图像后,再将这些分子图像传送给ResNet18模型以提取潜在特征。然后,五个辅助任务使用这些潜在特征来计算总代价函数。最后利用总损失函数进行反向传播更新ResNet18。
完成预训练后,在下游任务中对预训练的 ResNet18 进行微调。作者只在ResNet18之后额外增加了一个全连接层,全连接层的输出维度等于下游任务的分类数。在微调中,首先将来自下游任务的分子图像输入到 ResNet18 中以获得潜在特征表示。然后将潜在特征表示传递到全连接层并使用softmax激活函数对这些分类值进行归一化。
图1 ImageMol框架在预训练中前向传播的数据流
作者使用三种最流行的拆分策略(scaffold split、balanced scaffold split 和random scaffold split)来评估 ImageMol 在所有基准数据集上的性能。在分类任务中,如图1a,利用 ROC 曲线面积 AUC,发现 ImageMol 在 random scaffold split和scaffold split 上得到了更高的结果。与Chemception(一种最先进的卷积神经网络 (CNN) 框架)相比,ImageMol 在 HIV和 Tox21上实现了更高的AUC 值(如图2b),这表明与 Chemception 相比,ImageMol 可以从分子图像中捕获更多的生物学相关信息。此外,图2c表明,与三种最先进的基于分子图像的表示模型相比,ImageMol 在预测五种主要药物代谢酶的抑制剂与非抑制剂方面也实现了更高的 AUC 值。
作者进一步将 ImageMol 的性能与基于指纹的模型、基于序列的模型和基于图形的模型相比,如图2d、图2e所示,在使用random scaffold split时, ImageMol优于这三种最先进的分子表示模型。此外,与传统的基于MACCS和基于FP4的方法相比,ImageMol在CYP1A2、CYP2C9、CYP2C19、CYP2D6和CYP3A4上实现了更高的AUC值(图2f)。
图2 ImageMol 的基准评估
在13个SARS-CoV-2 生物测定数据集中,ImageMol 实现了 72.6% 至 83.7% 的高AUC 值(图3a)。为了测试 ImageMol 是否捕获生物学相关特征,作者使用ImageMol的全局平均池化层来提取潜在特征,并使用t -SNE来可视化潜在特征。图3a显示,ImageMol 识别的潜在特征根据它们在所有 13 个目标或端点上是活跃的还是非活跃的抗 SARS-CoV-2 代理很好地聚类。这些观察结果表明,ImageMol 可以准确地从分子图像中提取具有辨别力的抗病毒特征,用于下游任务。
通过ImageMol 框架下 3CL 蛋白酶抑制剂与非抑制剂数据集的分子图像表示,发现 3CL 抑制剂和非抑制剂t -SNE图中分离良好(图3b)。ImageMol 在 16 种已知的 3CL 蛋白酶抑制剂中识别出10种,表明在抗 SARS-CoV-2 药物发现中具有很高的泛化能力(图3c,图3d)。
图3 预测13个SARS-CoV-2靶标的抗病毒活性和通过ImageMol鉴定抗SARS-CoV-2抑制剂
ImageMol可以从分子图像表示中捕获化学信息的先验知识,包括 =O 键、-OH键、-NH 3键和苯环(图4a)。图4b、c展示了 ImageMol 的 Grad-CAM 可视化的 12 个示例分子,表明ImageMol 能同时准确地捕获对全局和局部结构信息的关注。图4d表明 ImageMol 在预测过程中主要关注图像的中间区域。总之,ImageMol 捕获具有局部和全局结构信息水平的分子图像的生物学相关化学信息,优于现有的最先进的深度学习方法。
图4 ImageMol的生物学解释
三、总结
本文提出了一种基于自监督图像处理的预训练深度学习框架,该框架结合了分子图像和无监督学习来学习分子表征。ImageMol在具有各种药物发现任务的多个基准生物医学数据集中被证明具有高精度,并且具有更好的可解释性,在识别分子性质和靶标结合的生物相关化学结构或亚结构方面也更直观。ImageMol能够为各种新兴疾病的快速药物发现和开发提供强大的工具。
参考文献
https://www.nature.com/articles/s42256-022-00557-6
相关文章
- Java编程中忽略这些细节,Bug肯定找上你
- 9个问题,带你掌握流程控制语句中的java原理
- 从IDC Marketscape报告看区块链政务数字化未来:权威解读新热点、新机遇
- chatGPT的火爆,并不偶然
- React 开发 | 常用 Hooks
- JDK19都出来了~是时候梳理清楚JDK的各个版本的特性了【JDK12特性讲解】
- Eolink 让我“重新认识“了自动化测试...
- 老板:你也把咱们网站弄成灰色——网站变灰色如何实现
- iptables规则案例
- ‘极锐’-一种新的锐化算法
- PS/LR滤镜插件套装 Nik Collection v5.3.0 Win/Mac
- Chrome插件:uBlock Origin – Chrome浏览器高效低占用的广告拦截插件
- 前端与区块链
- 云原生之微服务
- 集群动态环境管理神器 Modules
- 记 os_object_release Crash 排查
- 记 libAccessibility 通知 Crash 排查
- Ant Design Pro 中 点击子菜单的时候,其他菜单不自动收起来
- ETC 可视化
- 1267-Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci,IMPLIC for o...