zl程序教程

您现在的位置是:首页 >  其他

当前栏目

JCIM|诺华25年的小分子优化:化学系列演变的回顾性分析

2023-03-07 09:11:53 时间

在药物发现工作流中,化学优化的一个重要概念是化学系列 (chemical series)。这些是共享一个共同结构基序 (structural motif, 或称之为骨架) 的分子集合。

2022年11月9日,来自瑞士诺华生物医学研究院的研究团队在Journal of Chemical Information and Modeling上发表论文“25 Years of Small-Molecule Optimization at Novartis: A Retrospective Analysis of Chemical Series Evolution”。在论文中,作者报告了来自诺华化合物数据库的约3000个化学系列的回顾性重建,这使研究者能够理解化学系列的一般性质以及结构性质、ADMET特性和靶标活性随时间的演变情况。

1 概要

在药物开发过程中,优化小分子化合物的性质和生物活性是重要任务。尽管它很重要,但早期药物发现中的优化过程的大规模调查仍然缺乏,这可能是因为缺乏早期项目中使用的不同化学系列的历史记录。

本文的数据驱动方法证实了常见的药物化学知识。作者发现,在优化过程中,碳原子sp3杂化的大小、分数和立体中心的密度趋于增加,而化合物的芳香性(aromaticity)降低。在ADMET方面,溶解度趋于增加,渗透性趋于降低,而安全相关性质趋于改善。重要的是,随着时间的推移,尽管配体效率随着分子生长(molecular growth)而降低,但靶标活性和亲脂效率趋于提高。这强调了重原子数和是要监测的重要参数,特别是当作者进一步表明渗透性的降低可以与分子尺寸的增加相解释时。作者强调了与最近的内部药物发现项目中使用的系列相比,计算机重建的化学系列的重叠、缺点和差异,并调查了它们和历史项目的关系。

2 引言

先导化合物优化是药物开发工作流程的重要组成部分。从表现出对感兴趣的靶标的活性和随后产生的先导化合物结构的分子开始,其目标是改变化学结构以改善化合物的整体性质。在药物发现工作流中,化学优化的一个重要概念是化学系列(chemical series)这些是共享一个共同结构基序[structural motif, 在本研究中称之为骨架(scaffold)]的分子集合。通常,如果一个或多个骨架被确定为对靶标具有活性,那么可以通过在优化过程中用不同的取代基修饰或改变骨架结构来优化。除了对靶标的活性和选择性外,优化过程还包括优化其他性质,如渗透性、溶解性、代谢稳定性和毒性,通常称为ADMET(吸收、分布、代谢、排泄和毒性) 性质。此类优化的预期结果是得到候选药物(drug candidates, DC) ,其在后续临床研究中获得成功的可能性最大。因此,这是一个复杂且多个相关和部分矛盾目标的优化。

在过去几十年中,统计分析揭示了多种有关化合物的类药性信息的因素,并在药物发现的早期阶段得到了广泛应用。由于其简单性,类药五原则(Lipinski’s rule of five, Ro5),可能是最著名且具启发式的原则,其提供了关于氢键供体数量、氢键受体数量、亲脂性、可旋转键数量和分子量的指导。重要的是,如果是口服活性药物,则应以Ro5原则同时考虑各个成分。这种并行优化对大多数ADMET性质是有必要的,因为这些性质常常是是协同变化的或者是对立的。在相关的方向上,已有研究者根据批准药物的概况开发了预测方法,扩展了类药五原则,以定量估计类药性,其可用分数来排序化合物。

通常,分析侧重于已批准和未通过的候选药物的比较,或研究结构和性质与临床结果的关联。虽然这些启发式方法成功地应用于潜在候选药物的筛选,但它们对优化过程的影响尚不清楚。通常,实际的先导化合物优化过程没有详细描述。关于活性、选择性和ADMET性质的化学优化通常是如何解决的,以及如何成功地实现这一点是一个研究不足的问题。

因此,更好地理解优化过程可能有助于改进项目资源的决策。

为了研究诺华生物医学研究院(Novartis Institutes for BioMedical Research, NIBR)内部低分子量化合物的化学优化,作者回顾性地重建了潜在的化学系列,并使用化合物的注册日期研究了其随时间的演变。由于过去项目中使用的不同化学系列的记录并不一致,因此有必要进行计算重建。作者重点分析了标准ADMET性质的演变和安全性指标、靶标活性以及合成分子的结构特征。作者进一步描述了化学系列背景下的分析趋势以及各个系列之间的相互关系。

另外,值得强调的是,化学系列是在计算上重建的,存在一些与重建程序相关的一些缺点。由于化学系列通常由化学家定义,因此是主观的,特别是在优化项目的背景下,化学系列概念的计算可复现性是一项非常重要的任务。作者在整个工作过程中强调了方法的优点和缺点。

3 方法

1.数据预处理,删除一些异常、肽类的化合物,使分析更简洁与正确。

2.通过修改的系列识别算法进行系列识别(series identification)。识别的骨架如图1所示,识别的化学系列如图2所示。

图1 识别的骨架(scaffold)概览。(a) 重建骨架的结果。(b) 利用UMAP算法将整个数据集中的化合物嵌入到二维空间的可视化分析。没有被分配骨架的分子标记为绿色。(c) 分配单个骨架的化合物数目对骨架数目的直方图。单个骨架所分配的最高化合物数目为1800个。在这些图表中,只使用了2020年之前注册的最新化合物的骨架。(d) 骨架首次出现的年份中,分配给骨架的化合物的中位数(蓝色) (即化合物被分配给骨架的数目随年份的变化)以及99%的置信区间。

图2 已识别化学系列概述。(a) 以年为单位的单骨架系列的长度的直方图,通过化学系列中第一个化合物到最后一个化合物的时间来衡量,表明了化学系列所包含的化合物所跨越的年份时间。(b) 系列长度(按年份定义) 与系列大小(按每个系列化合物数量定义) 的散点图。(c) 两个连续化合物之间间隔天数的直方图。最后一个峰值对应于大于50天的所有次数。(d) 与化学系列中第一个化合物首次注册的相对注册时间的直方图(以蓝色显示) 。每个图对应于相对注册时间分布的五种不同情况之一的示例。通过滑动窗口方法确定的活跃阶段显示为绿色。到目前为止,在每个时间点出现的化合物的分数即经验累积分布函数(empirical cumulative distribution function, ECDF) ,以红色标记。(e) 活跃−非活跃阶段信息的不同情况的统计。(顶部) 对于>5年和≤5年的化学系列,分别显示三种情况下的系列数量;(底部左侧)展示了所有重建化学系列的不同尾部的统计信息,(底部右侧)展示了相同scaffolds使用数量的比例。(f) 合并相关单骨架系列后以及提取系列中的活跃阶段后,化学系列的长度(顶部) 和大小(底部)的分布直方图。

预聚类。使用farthest-first clustering聚类方法对分子进行预聚类。

骨架识别。使用层次UPGMA clustering聚类算法进一步聚类,直到具有预定义特异性的骨架可以与聚类的每类相关联。每个类别的骨架定义为最大常见子结构(maximum-common-substructures, MCS)。

子结构搜索和系列合并。使用RDKit在每个骨架的完整化合物集合中进行子结构搜索,完成分子对化学系列的最终分配。

3.UMAP嵌入。作者使用Tanimoto对1024位的Morgan2指纹进行相似度计算,并使用UMAP(Uniform Manifold Approximation and Projection, 统一流形逼近与投影)算法将化合物嵌入二维欧氏空间。嵌入结果如图1所示。

4.系列网络计算与可视化。为了构建网络,作者将每个骨架定义为结点,骨架系列间具有公共的化合物时,用Jaccard距离(1-Jaccard相似度)定义两个节点间的连边。为了修剪网络中最重要的边,作者使用了Kruskal算法计算了最小生成树。

5.活跃与非活跃时期(active and inactive phases)检测。通过确定某一时期内具有首次登记日期的化合物的数量来检测活跃时期和非活跃时期。如果这些化合物的数量超过阈值,则将该时段设置为活跃。否则,将设置为不活跃。作者将阈值设置为10个化合物。统计的可视化直方图如图2所示。

6.化学系列平均时间轨迹的计算。

7.化学系列中第一个和最后一个化合物的比较。

8.筛选具有统计显著趋势的系列。化学优化过程中的结构演变结果如图3所示,ADMET性质演变如图5所示,靶标活性和相关配体效率随时间演变如图6所示。

9.化学系列发展史的近似。化学项目发展历史如图4所示。

10.系列开始和系列结束的分类。

11.将活跃性分析(activity assays)分配给化学系列。

图3 化合物优化过程中结构性质的进化。(a) 所考虑结构性质的时间轨迹。所有项目系列的平均值以蓝色显示,置信区间为99%。项目系列的进展以过去出现的化合物的分数为特征。(b) 项目系列分数显著下降以蓝色表示,显著上升以橙色表示,没有显著性趋势以灰色显示。阴影部分表示99%置信区间。(c) 所考虑的结构特征的时间轨迹,但对于显著上升(橙色) 或显著下降(蓝色) 的项目系列单独显示。平均值与99%置信区间同时显示。(d) 合成可及性的时间演变。同样,平均值与99%置信区间一起显示。(e) 项目系列中出现的前200种化合物的Tanimoto相似性的时间轨迹。与第一个化合物的相似性以橙色显示,连续相似性(即与项目系列中的前一个化合物的类似性) 以蓝色显示。图中描述了平均值和99%置信区间。

图4 化学系列的发展历史。(a) 示例项目系列的计算开发树以及不同的取代基。根化合物以红色显示,数字显示时间顺序,其中第一个化合物的等级为0。骨架的位置用X标记。为清楚起见,仅为单分支提供结构。(b) 左图:项目系列中化合物部分的直方图,可以在开发树中最长的路径中找到。右图:Kendall排名与发展网络排名的时间相关性直方图。(c) 随着与发育树(橙色) 中的根化合物(第一化合物) 的距离的增长,结构性质的演变。平均值与99%置信区间一起显示。距离是通过相对于树中最长路径,在开发树中必须从根开始遍历以到达树中相应节点(复合物) 的边的数量来衡量的。随着时间的推移,以蓝色显示背景中的演变,并在绘图顶部显示相应的x轴。

图5 ADMET性质随时间的演变。(a) ADMET性质的时间轨迹。系列的平均轨迹均以蓝色显示,置信区间为99%。(b) 显著降低(蓝色)、上升(橙色)或无显著趋势(灰色)的项目系列分数。置信区间为99%. (c) 项目系列开始(蓝色)和结束(橙色)的每个分析的期望值与不期望值的比例。统计显著差异用星号标记。(d) 所考虑ADMET性质的时间轨迹,分别显示在期望(蓝色)或不期望(橙色)值范围内开始的项目系列。平均值显示为粗线,置信区间为99%。

图6 靶标活性和衍生的配体效率指标随时间的演变。(a) 靶标活动相关性质的时间演变。系列的平均轨迹均以蓝色显示,置信区间为99%。该项目系列的进展以迄今为止出现的化合物的分数为特征。(b) 显著减少(蓝色)、增加(橙色)或无显著趋势(灰色)的项目系列分数。

4 讨论

在这项工作中,作者描述了化合物系列的相关结构和性质随时间的演变。在第一步中,使用层次聚类来识别诺华公司化合物集合中具有预定义特异性的骨架。然后,将所有与之匹配的化合物分配给每个骨架,这产生了最初的单骨架系列。

这个系列的定义有一些潜在的缺点。首先,由于没有像先导化合物优化项目中那样在有限的化合物子集背景下定义系列,因此该骨架是特异的以避免对通用 (非特定) 结构基序(motifs)的解释。特别是对于在优化过程开始时合成的化合物,这可能会导致设置过于限制,因为这里会进行更大的结构探索,共享的骨架越小越通用。本文的方法无法很好地捕捉这些信息。第二,在优化过程中,随着时间的推移,骨架可能会发生变化。在一个项目中,这些修饰的骨架通常被定义为更大的公共系列的子系列。换句话说,本文的算法可能会在某一点上定义一个新的框架,并拆分系列,这将产生重叠的化学系列。

优化了系列定义方法后,作者研究了化合物的注册时间分布。这表明,对于大多数骨架,可以确定一段高活跃时期(即,合成的许多类似物)。在此期间之前和之后,与各自骨架匹配的其他化合物有时在各个方向上登记超过一年。大约50%的已鉴定骨架表现出这种行为。

多骨架系列中的活跃阶段确定后,作者提取了属于这些时间框架的各自化合物。并将这些子集称为项目系列,然后将其用于描述优化过程。对时间轨迹的分析揭示了几种反复出现的模式。在结构方面,作者发现分子Fsp3尺寸的增加和立体中心的相对频率是最显著的特征,而芳香环的相对频率降低。作者认为,这些模式确实反映了先导化合物优化的典型方法,因为它们将直接影响ADMET性质,如化合物的溶解度或亲脂性。

关于ADMET模式,作者发现溶解度的增加和渗透性的降低是最显著的影响,尽管也可以观察到安全性指标 (CYP、hERG) 的改进。进一步的分析表明,增加的重原子数量是观察到的渗透率下降的主要原因。除了平均时间轨迹之外,作者还筛选了单个项目系列的结构或性质的显著趋势。文中作者进行了类似的观察,并可以证实所描述的趋势的存在超出了平均值。

这项工作中呈现的背景不仅提供了大量信息供分析,还提出了许多值得研究的有趣问题。例如,在当前的工作中,作者研究了彼此独立的性质。然而,在现实中,这些都是相关的。其中许多关系是已知的,例如,溶解度和亲脂性通常呈负相关。可以预期,在时间趋势的背景下对这些关联的进一步分析将提供更多信息。作者朝着这个方向迈出了第一步,通过分析重原子数量增加背景下的ADMET性质的趋势。

对靶标活性随时间的分析表明,当配体效率随时间降低时,pAC50和亲脂性效率趋于增加。这进一步突出了监测重原子数量和亲脂性的重要性。必须提到的是,系列到项目分析的匹配是一个自动化的工作流程,因此并不完美,但手动检查显示出与预期结果的良好一致性。

总的来说,这项工作为系统分析过去几十年的药物优化工作奠定了基础。本文用数据证实和挑战了一些常见的医学化学知识。虽然本文开发的方法基于一些基本假设(特异性、活跃阈值、分子指纹),但结果似乎足够稳健,可以进行更深入的分析。尤其是更好地理解是否有可能根据历史数据得出化学系列进行/不进行决策的关键标准。

参考文献

Beckers M, Fechner N, Stiefl N. 25 Years of Small-Molecule Optimization at Novartis: A Retrospective Analysis of Chemical Series Evolution[J]. Journal of Chemical Information and Modeling, 2022.

--------- End ---------