Brief Bioinform | CoaDTI:预测药物-靶点相互作用的多模态协同注意力框架
2022年10月23日,香港城市大学黄家骏团队在Briefings in Bioinformatics上发表文章。作者提出了CoaDTI,一种使用多模态协同注意力(co-attention)框架进行药物-靶标蛋白相互作用预测的新型算法。CoaDTI结合了协同注意力机制,对药物模式和蛋白质模式的相互作用信息进行建模。CoaDTI结合了Transformer从原始氨基酸序列中学习蛋白质表示,以及GraphSAGE从SMILES中提取分子图特征的方法。此外,作者采用迁移学习策略,通过预训练的Transformer对蛋白质特征进行编码,以解决标记数据稀缺的问题。
背景
药物-靶标相互作用(DTI)的识别对于药物的发现起着至关重要的作用,其中药物是化学分子,靶标是结合袋中的蛋白质残基。手动DTI注释方法仍然可靠,然而,要彻底测试每一对药物靶点是非常费力和耗时的。最近,标记的DTI数据的快速增长促进了对人们对高通量DTI预测的兴趣的增加。不幸的是,这些方法高度依赖于人工表示的手动特性,从而导致错误。在本文中,作者开发了一个名为CoaDTI的端到端深度学习框架,以显著提高药物靶点注释的效率和可解释性。
方法
如图1所示,基于多模式共同注意力的框架CoaDTI以药物SMILES序列为输入,首先将线性序列转换为基于R半径子图(R-radius subgraph)算法的分子图,图数据被送到GraphSAGE模型,进行邻域聚合。
图1. CoaDTI模型图
考虑到残基位置信息对于提取蛋白质特征至关重要,CoaDTI使用两个嵌入层来获得蛋白质的词嵌入(Word embedding)向量,并使用正弦和余弦函数进行位置编码(position embedding)定位不同位置频率下的嵌入。CoaDTI集成了Transformer编码器用于捕获蛋白质序列中隐藏的全局信息。Transformer更进一步被替换为预训练的版本。如此,CoaDTI得以融合来自药物和蛋白质的多模态信息以执行预测。
为了映射异构表示到一个公共空间,并估计药物化合物的哪一部分的贡献影响靶蛋白,CoaDTI结合了深度学习中使用协同注意力处理多模态特征的机制。CoaDTI利用自注意力(self-attention,SA)来编码药物特征和蛋白质特征。然后两个特征向量通过两个协同注意力层,即DPA(drug-protein attention)和PDA(protein-drug attention):DPA层建模药物对蛋白质的影响,而PDA层则估计药物的蛋白质注意力权重。对于所有注意力单元,输出均加以dropout,同时将残差连接与层归一化结合在一起,以进一步改进模块的鲁棒性。
图2给出了注意力层的三个版本。自注意力(SA):输入来自一种模态(药物或蛋白质),以得到查询向量(query,Q),键向量(key,K)和值向量(value,V)。蛋白质-药物注意(PDA):查询Q是蛋白质特征的嵌入,键值对(K, V)是药物特征嵌入。药物-蛋白质关注(DPA):查询Q是药物特征嵌入,键值对(K, V)是蛋白质特征嵌入。为了从不同的特征子空间学习信息,多头注意力(multi-head attention,MHA)被纳入深度协同注意力模块。多头注意力由多个注意力块拼接组成。
图2. 三种注意力模块
作者构建了深度协同注意力模块的不同级联方式,如图3所示。
图3. 注意力层的三种组合方式
堆叠方式(stack)堆叠SA和PDA的组合。编码器-解码器方式(encoder-decoder)借用了序列-序列模型的思想,这直观地适用于蛋白质和药物序列特征融合。编码层通过堆叠SA层学习药物序列特征,解码层通过堆叠SA 和PDA层将药物模态信息融合进入蛋白质模态信息。交叉方式(interaction)旨在利用药物表征之间的相关性、相互作用和蛋白质表达。
蛋白质和药物输入首先由SA层嵌入特征。然后,蛋白质特征由考虑药物作用的PDA层更新,药物特征由考虑蛋白质作用的DPA层更新。协同注意力模块分别输出所得到的药物表示向量和靶标蛋白表示向量,并拼接为药物-靶标蛋白特征向量。在分类块,交互向量被输入具有激活函数Tanh的线性层。
结果
作者对比了CoaDTI和多种先进算法的有效性。CoaDTI-stack是具有stack协同注意力模块的模型。CoaDTI-encoder是带有encoder-decoder协同注意力模块的模型。CoaDTI-inter是具有interaction协同注意力模块的模型。CoaDTI-pro利用预训练Transformer以编码蛋白质特征并结合interaction协同注意力模块。
其结果如表1所示,可见CoaDTI的表现超越了现有模型。在几种CoaDTI中,CoaDTI-pro取得了最佳结果。
表1:不同方法的对比
总结
在本研究中,作者提出了一个端到端的深度学习框架CoaDTI,通过融合多模态信息来预测DTI。由于蛋白质输入和药物输入具有不同的特征,CoaDTI结合了最合适的特征提取来获得特征表示。对于蛋白质模态,Transformer用于对输入进行编码,因为它可以通过关注残基在蛋白质上不同的位置来获取全局信息。对于药物模态,GraphSAGE可以学习图输入的结构信息,并聚合邻域信息,该邻域信息可应用于隐藏的图特征。
为了整合多模态信息,作者提出协同注意力模块以充分利用跨模态互补性。针对标记的DTI数据往往欠缺,而未标记的DTI数据则爆炸式增长,作者利用预训练的Transformer进行迁移学习,获得外部知识,以解决这一问题。
参考资料
Huang et al., CoaDTI: multi-modal co-attention based framework for drug–target interaction annotation, Brief Bioinform, 2022
--------- End ---------
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的