您现在的位置是：首页 > 数据库

当前栏目

Patterns | 可解释图神经网络在药物性质预测问题上的定量评估研究

数据神经网络

2023-03-07 09:11:53 时间

｜导语｜

图神经网络因其对图结构数据的强大表达能力而受到越来越多的关注，但它们仍然因为缺乏可解释性而受到质疑。当前可解释性人工智能方法受限于数据集，仅在社交网络等现实世界数据集上进行定性评估，缺少定量评估和比较。同时，可解释性方法生成的解释是否达到预期目的并提供可靠的答案也仍待探索。中山大学杨跃东教授团队联合星药科技研发团队在Cell Press旗下Patterns期刊发表了题为“Quantitative evaluation of explainable graph neural networks for molecular property prediction”的文章，该研究建立了五个分子可解释性基准数据集，定量评估了六种常用的可解释性方法与四种图神经网络模型的组合，并与药物化学家在可解释性任务上进行了直接比较。这是首次将可解释性方法与人类专家在可解释性任务上进行定量实验比较的研究。同时，基于模型学到的解释，研究人员开发了一种数据驱动的分子结构指纹，可作为分子属性预测中经典分子指纹的补充。相关成果[1]已于11月正式发表。

近年来，由于图结构数据的强大表达能力，图神经网络的研究越来越受到关注，其应用领域包括了社交网络、推荐系统和自然科学等。尽管前景广阔，图神经网络仍然因为其缺乏可解释性而广受质疑，因为这些模型通常被认为是“黑匣子”。可解释的人工智能方法(XAI)已被用于解释图神经网络模型。然而，因为缺少用于定量评估的真实数据集，这些XAI方法通常仅在社交网络等现实世界数据集上进行定性评估。

相比之下，可解释性的先验知识通常存在于科学数据集中，特别是在化学和药物发现领域[2]。例如，在毒性预测中，关键子结构（也称为结构预警, structural alert）通常是与毒性发生概率增加密切相关的片段。而在性质断崖的情形下，则更为复杂，因为一些子结构的轻微变化会导致分子性质发生显著变化。这些现实而复杂的场景和数据，为可解释性方法的发展带来巨大挑战的同时，也带来了一定机遇。

在这项研究中，研究团队建立了五个分子可解释性基准数据集，包括两个合成数据集和三个实验数据集，用于定量评估 XAI方法与图神经网络的可解释性。通过这些基准，研究人员定量地评估了六种可解释性方法与四种图神经网络的组合，并与七位不同经验水平的药物化学家在可解释性任务上进行了实验比较。结果表明，当前的可解释性方法可以为药物化学家提供可靠且信息丰富的答案。而基于学到的可解释子结构特征，研究人员开发了一种数据驱动的指纹，可作为分子属性预测中经典指纹的补充，在多个分子属性基准数据集上得到了验证。

图1. 可解释性数据集以及评估框架示意图

定量评估XAI方法在图神经网络中的可解释性

为了定量评估XAI方法在图神经网络中的可解释性，研究人员在五个基准数据集上评估了六种常用的可解释性方法与四种图神经网络的组合，如图2所示。当比较不同图神经网络的可解释性能时，CMPNN得到了最高的Attribution-AUROC值（0.671）, 而 GraphNET 和GAT分别排名第2和第3。当比较不同 XAI方法时，IG方法表现最佳，得到了最高 Attribution-AUROC值为0.675，其次是 GradInput 和 GradCAM，其Attribution-AUROC值分别为0.629和0.559。可视化结果由图3展示。

图2. 可解释性定量评估实验结果图

图3.可视化结果图

对比药物化学家与可解释AI模型在识别分子肝毒性上的能力

为了评估可解释性方法的真实能力，研究人员邀请了7位不同经验水平的药物化学家进行了实验比较。研究人员从肝毒性数据集的外部测试集中随机选择了50 个未标记的分子，并要求XAI模型和药物学家预测这些分子是否具有肝毒性及其引起该毒性的关键子结构。

如图4所示，XAI模型在预测肝毒性的准确度上，要优于所邀请的药物学家，而药化学家对于肝毒性的预测准确度与工作年限呈正相关。在肝毒性的子结构识别方面，XAI模型的预测精度略低于一位工作经验长达20年的药化学家。研究人员也通过代表性的案例分析了药化学家与XAI模型对肝毒性子结构预测的偏向和趋势。

图4. 与人类专家的定量对比实验结果图

基于可解释子结构的分子指纹

研究人员利用可解释性方法识别的关键子结构，构建了一种数据驱动的分子结构指纹，在五个分子属性预测的公开基准上进行了实验测试。结果如图5所示，该分子指纹在三个分类任务中分别比单独使用经典分子指纹Morgan-FP高出了2.59%、0.35%和4.32%，在回归任务上分别高出8.36% 和5.63%。与此同时，研究人员通过不同数据量下的对比实验，验证了增加训练样本有望提高该分子指纹的表征性能，表明了这种数据驱动方法的优势。

图5. 可解释性分子指纹实验结果图

结语

本研究建立了五个分子可解释性基准数据集，定量评估了可解释性方法与图神经网络的组合，并与药物化学家在可解释性任务上进行了直接比较。这是首次将可解释性方法与人类专家在可解释性任务上进行定量实验比较的研究。实验评估表明，当前的可解释性方法与图神经网络可以在识别分子属性和关键子结构方面提供可靠且信息丰富的答案，并且模型得到的解释也可为分子属性的预测提供帮助。文末，作者对当前可解释性方法的一些局限性也作了讨论。未来，本研究建立的基准数据集和定量评估框架，也将更好地评估、比较模型的可解释性，进而推动可解释性方法的发展。

作为应用前沿人工智能技术赋能药物研发的代表性企业，星药科技在AI驱动分子设计、虚拟筛选、性质预测、复合物结构预测、合成生物学研究等领域的落地转化方面进行了大量探索并取得了一定的成果[3][4][5][6]。目前，星药科技已通过自研平台Pyxir®和M1确定了两种新型的治疗自身免疫性疾病的临床前候选化合物（PCC）[7]，验证了其AI药物研发技术能力的闭环。接下来星药科技将秉承初心，继续聚焦在能为医药产业带来更多增益的差异化管线，尤其是未成药、难成药靶点的管线研发。

参考资料

[1]. Rao, J., Zheng, S., Lu, Y., and Yang, Y. (2022) Quantitative Evaluation of Explainable Graph Neural Networks for Molecular Property Prediction. Patterns, 100628.

[2]. Jiménez-Luna, J., Grisoni, F., & Schneider, G. (2020). Drug discovery with explainable artificial intelligence. Nature Machine Intelligence, 2(10), 573-584.

[3]. Wang, P., Zheng, S., Jiang, Y., Li, C., Liu, J., Wen, C. & Yang, Y. (2022). Structure-Aware Multimodal Deep Learning for Drug–Protein Interaction Prediction. Journal of Chemical Information and Modeling, 62(5), 1308-1317.

[4]. Chen, J., Zheng, S., Song, Y., Rao, J., & Yang, Y. (2021). Learning Attributed Graph Representations with Communicative Message Passing Transformer. IJCAI 2021.

[5]. Wang, J., Zheng, S., Chen, J., & Yang, Y. (2021). Meta learning for low-resource molecular optimization. Journal of Chemical Information and Modeling, 61(4), 1627-1636.

[6]. Lu, W., Wu, Q., Zhang, J., Rao, J., Li, C., & Zheng, S. (2022). TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction. bioRxiv.

[7].https://mp.weixin.qq.com/s/nXUgKL5qb6vZgGKXUegLqA

论文原文链接：

https://doi.org/10.1016/j.patter.2022.100628

关于星药科技

星药科技（Galixir）是一家从临床需求出发、以AI为核心技术驱动药物研发的生物科技公司。星药致力于布局为医药产业带来更多增益的差异化管线，尤其是未成药、难成药靶点的药物管线。星药人工智能药物发现平台Pyxir®使用AI前沿算法，结合计算化学、药物化学和生物学的工具及经验，全方位攻克小分子药物早期研发流程中的疑难问题，快速发现活性高、成药性好且结构新颖的候选分子。星药的智能计算平台M1结合了AI与经典物理学原理，可快速准确地描述分子和蛋白间的相互作用、精确地计算目标药物分子与特定靶标的结合自由能，突破经典计算模拟方法，达到世界顶尖水平。星药已通过Pyxir®和M1平台确定了两种新型的治疗自身免疫性疾病的临床前候选化合物（PCC），验证了其AI药物发现能力的闭环。目前，星药正在和国内外药企以及研究机构合作推进多个药物研发管线，M1平台也于多家药企部署使用并获得良好反馈。星药将继续以“AI驱动的研发管线”和“AI赋能的计算平台”为双循环，赋能药物研发产业，让世界远离病痛，让新药触手可及。

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程

当前栏目

Patterns | 可解释图神经网络在药物性质预测问题上的定量评估研究

相关文章