zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

广东省小分子新药创新中心与新樾生物联合发表基于DEL的分子生成论文

2023-03-07 09:11:54 时间

广东省小分子新药创新中心与新樾生物合作最近在Frontiers in Pharmacology(IF:5.98)发表题为《3CLpro inhibitors: DEL-based molecular generation》的最新论文, 该论文利用DNA编码化合物库(DEL)技术筛选出3CLpro(一个病毒复制所必需的蛋白酶)的活性化合物,再基于DEL筛选数据建立RNN,VAE,AAE, MCMG等预训练分子生成模型,利用DEL中具有高亲和力的分子对该模型进行微调,生成一系列全新结构的化合物,从而同时实现了基于DEL的药物发现与化合物结构优化,据悉这是国际上利用DEL数据进行分子生成实现结构优化的首篇论文。

研究背景

药物结构优化的一个基本问题是根据已知信息设计出具有更优特定性质的新分子。在药物发展的早期,对新分子进行结构改造往往依赖药物化学家们积累的经验与知识,但这会大大限制所探索的分子化学空间。深度学习在药物设计中的应用在MIT Technology Review 2020中被评为十大突破性新技术,充分利用这项工具可探索更加广阔的化学空间,生成所需要的化学和药理特性的新分子。

通过机器学习(ML)进行分子生成(MG)已被证明是药物结构优化的有效工具,如:Zhavoronkov(Zhavoronkov et al., 2019)等人通过建立深度学习的分子生成架构GENTRL在21天内发现了DDR1的激酶抑制剂。然而这是由于DDR1是已有大量活性数据报道的靶点,对于新靶点,由于缺乏大量的活性数据,分子生成用于结构优化往往效果不佳。

通过DEL技术快速产生大量的针对特定靶点的亲和力数据,包括新靶点数据,而后利用DEL数据进行分子生成有可能帮助解决新靶点苗头化合物快速优化的问题。

方法

首先论文构建了两个DEL库, 将两个DEL库对3CLpro靶点进行筛选,得到了1.04 billion针对3CLpro的亲和力数据,同时,也发现了一些活性化合物。

图1.DEL库设计信息以及部分分子的结构活性信息

随后对DEL数据建立分子生成模型生成出潜在有活性的分子。由于DEL产生的亲和力数据太庞大,先将低count数据进行截断,随后将剩余的370w数据用于RNN,VAE,AAE等预训练模型的构建;最后,把高count数的18129个分子进行迁移学习来生成出具有高亲和力的分子以提高得到活性分子的概率。文中比较了使用迁移学习和不使用迁移学习下所生成的分子,并设置了一系列的过滤方式(类药性,毒性基团,药效团,对接),同时结合药物化学家的经验知识,来挑选出可能具有活性的分子,目前也在对这些潜在活性分子进行进一步的开发。

图2. 实验流程图

结果

各个模型的表现:MCMG模型在Novelty上表现较好,其它三个模型在Novelty上表现较差,但在Validity和Uniqueness上表现较好。VAE,AAE,RNN都使用了较为简单的架构,MCMG模型参考自Wang, J(Wang et al., 2021).)等人的研究成果,这表明要提高生成分子的新颖性,使用更加复杂的模型可能是必要的。但MCMG生成的分子在亲和力的测试中表现欠佳,这其中的原因依然有待思考。

图3. 模型表现

亲和力分布分析,使用迁移学习的模型生成的分子在亲和力测试中具有更高的打分。这说明在缺乏活性数据的时候,利用DEL数据进行分子生成时,使用高count数的分子对模型进行微调更有可能产生出高活性的分子。

图4. 模型亲和力分布比较

本文结合亲和力分数预测、药效团过滤、评估配体与靶标形成复合物的构象的合理性以及药物化学家的经验知识,挑选出了可能具有活性的化合物,并选择了其中一部分化合物进行了合成以及生物活性的测试。

图5 挑选出的可能具有活性的化合物

总结

据作者所知,这是DEL数据集首次用于分子生成的研究,将促进DEL与AI结合应用领域的发展。 本研究初步发现,利用DEL数据代替公共数据库进行分子生成是可行的, 特别是对于新的靶标,基于DEL数据的亲和力模型以及分子生成模型有望成为集药物发现和结构优化双重功能于一身的新药发现利器,而由于新靶点数据集的稀缺性,依赖公共数据库很难实现这一目的。

相关文献:

Xiong F, Xu H G, Yu M G, et al. (2022) .3CLpro inhibitors: DEL-based molecular generation. Frontiers in Pharmacology.

Zhavoronkov A, Ivanenkov Y A, Aliper A , et al. (2019). Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nature biotechnology, 37(9), 1038-1040.

Wang Jike, Hsieh C, Wang M Y , et al. (2021). Multi-constraint molecular generation based on conditional transformer, knowledge distillation and reinforcement learning. Nature Machine Intelligence, 3(10), 914-922.

--------- End ---------