zl程序教程

您现在的位置是:首页 >  其他

当前栏目

Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型

2023-03-14 22:47:56 时间

编译| 赖乐珊 审稿| 李芬

今日分享的是巴黎索邦大学、都灵理工大学和巴黎高等师范学院联合发表的文章,该篇文章介绍了一个基于简单自回归模型的蛋白质序列高效生成模型。生成模型的优越性表现在不仅可以设计基于序列数据的蛋白质,也可以提取深深地隐藏在序列数据库中蛋白质的结构和功能信息。本文提出了基于简单自回归模型的高准确率、高计算效率的序列生成模型。其性能类似于现有的基于玻尔兹曼机或深度生成模型的方法,但计算成本大大降低。此外,该模型的简单结构具有独特的数学优势,提高了在序列生成和评估上的适用性。

1介绍

在庞大并日益增长的蛋白质序列数据库里,人工标注过的数据仅占0.25%,所以利用无监督学习探索序列信息的研究尤为多。无监督的方法可能受益于蛋白质之间的进化关系:虽然突变改变了氨基酸序列,但选择保持了它们的非常保守的生物学功能和三维结构。

在这种背景下,生成性统计模型引起人们的兴趣,理想情况下,通过为所有氨基酸序列(a1,...,aL)定义的概率P(a1,...,aL)来捕捉蛋白质家族的自然序列可变性,从P(a1,...,aL)采样可以用来产生新的人工氨基酸序列,但由于蛋白质序列长度与氨基酸种类之多,学习P(a1,...,aL)的任务是非常不易的,因此,选择合适的生成模型体系结构就显得尤为重要。

目前最好的蛋白质生成模型之一为共同进化模型,如直接耦合分析(DCA)构建的模型,它清晰地模拟了单个位置上“惯用”的氨基酸 (即,残基保守)和位置对之间的相关性(即,残基共同进化)。蛋白质折叠中的残基接触是从双突变中最强的上位耦合中提取的,即从DCA的直接耦合中提取的。

氨基酸突变的影响通过突变型概率和野生型概率之间的对数log {P(mutant)/ P (wildtype)}来预测。通过 “深度突变扫描”可以确定强相关性的突变效应。

bmDCA是一个能够生成功能性氨基酸序列的模型,主要基于随机序列文库的大规模实验筛选或时间密集型生物分子模拟,然后通常是用定向进化进行序列优化,bmDCA被证明不仅在统计意义上具有生成性,而且在生物学意义上也是如此:它生成的序列被证明在统计上与天然的没有区别。DeepSequence是基于VAE模型的实现,是目前最好的突变效应预测模型之一,但在生成序列上远不如bmDCA准确。

2方法

本文提出了一个基于浅层(单层)自回归模型和广义逻辑回归的简单模型架构——arDCA,简单的结构使其在数据有限的情况下健壮性更强,学习速度更高;而自回归模型可以精确计算序列概率。在突变效应和残基接触预测方面可与最先进的技术相媲美。最后,arDCA模型的熵与给定蛋白质家族相关的功能序列空间的大小有关,这比在bmDCA中的计算更加有效。

本文是基于序列数据的生成模型,其中的序列属于同源蛋白家族,并以多重序列比对(MSA)的形式给出,即,包含M个长度为L的蛋白质用矩阵来表示,如下所示:

元素等于 20个标准氨基酸中的一个或者是比对间隙“-”,所以一共有q=21个可能的符号;模型学习(比对的)全长序列的统计模型P(a1,...,aL),可以反映D中的变异性:属于感兴趣蛋白质家族的序列具有相对较高的概率,而不相关的序列的概率非常小。此外,从模型P(a1,...,aL)逐个顺序采样的生成MSA D’序列应该在统计上和功能上与作为输入MSA D没有区别。

图1 arDCA方法的体系结构

蛋白质家族的自回归模型 图1显示了该方法和模型体系结构,从同源序列的最大似然估计出发,使用最大似然推理学习自回归模型,该模型将联合序列概率P(a1,...,aL)分解为单残基条件概率P(ai|ai−1,...,a1)。通过定义序列的统计能量,预测当残基单独或成对替代时的突变效应和残基接触,并通过从P(a1,...,aL)中采样设计新序列。其中用softmax回归定义参数公式,包含一组域和序列的耦合。

arDCA可以计算单个序列的概率,而在bmDCA中,只能确定序列权重,当对不同模型中的相同序列进行比较时,例如在同源性检测和蛋白质家族分配方面,这可能成为重要优势。位置顺序 MSA中自然氨基酸的顺序采取从熵最小的序列(最保守的变量)开始,逐渐增大的顺序排列。

3结果

本文除了比较arDCA模型与bmDCA和DeepSequence模型的性能,还比较了profile模型,该模型不受序列的上下限制,序列分解为如下所示:

表1给出了五个代表蛋白质的推理时间,与bmDCA相比,arDCA加快了2-3个数量级,由于arDCA通过似然最大化实现特别有效的参数学习,可以精确地计算梯度,比bmDCA模型的推断更加高效。

表1汇总了使用的数据(蛋白质家族、序列长度L和编号M,以及真实数据和模型生成的连接关系Cij和Cijk之间的皮尔逊相关性),模型有bmDCA、arDCA(使用熵或直接位置顺序)以及DeepSequence(最高值以粗体强调)

为检验arDCA的生成性,比较了生成的氨基酸的一点频率,以及有联系的两点和三点的关系,图2 a-c显示了与bmDCA的比较响应调节器Pfam系列PF00072的结果。其他蛋白质如表1所示。发现对于这些观测数据,arDCA经验平均值和模型平均值非常吻合,甚至略好于bmDCA的情况。图2 d-g显示出arDCA和bmDCA都很好地再现了响应调节序列的聚类结构。由此得出结论,arDCA提供了极好的生成模型,其精度至少与bmDCA相同,而且花费了低得多的计算成本,这使得该方法可以扩展到更大的蛋白质上。

图2 PF00072的arDCA的生成特性

为检验突变效应的预测,期望功能序列具有非常低的统计能量,而不相关的序列显示高能量。在图3a中展示了深度突变扫描实验结果与各种计算预测之间的Spearman等级相关性,将预测与30多个不同实验和野生型蛋白的实验数据进行了比较,并与最先进的突变效应预测因子进行了比较。图3b显示了arDCA和DeepSequence之间更详细的比较。得出结论,arDCA可以快速准确地预测突变效应,这与一些最先进的预测指标是一致的。它的系统性能优于Profile模型和plmDCA,并且在数据集有限的情况下比DeepSequence更稳定。这一观察结果,加上arDCA的良好计算效率,表明DeepSequence应该用于预测由非常大的同源MSA代表的单个蛋白质的突变效应,而arDCA是大规模研究(多个蛋白质)或小家族的首选方法。

图3 用arDCA预测突变效应

4总结

本文提出了一类简单的自回归模型arDCA,该模型以高精度和高计算效率生成蛋白质序列家族。虽然arDCA在包括序列统计、降维的主成分空间中的序列分布、突变效应的预测和残基-残基接触等多个测试中与bmDCA相当,但在计算上比bmDCA高效得多。自回归模型的特殊因子分解形式可以得到精确的似然最大化,这在同源性检测方面有很大潜力;此外使用熵的顺序,很容易估计与特定蛋白质家族相关的功能序列空间的大小。该模型为进一步探索蛋白质家族提供了思路。

参考资料

Trinquier, J., Uguzzoni, G., Pagnani, A. et al. Efficient generative modeling of protein sequences using simple autoregressive models. Nat Commun 12, 5800 (2021).

https://doi.org/10.1038/s41467-021-25756-4.

代码链接:https://github.com/pagnani/ArDCA.git.