zl程序教程

您现在的位置是:首页 >  Java

当前栏目

[NMI | 论文简读] 基于语言模型的可控蛋白质设计

2023-02-18 16:48:03 时间

简读分享 | 蒋一 编辑 | 龙文韬

论文题目

Controllable protein design with language models

论文摘要

蛋白质序列在本质上类似于自然语言:氨基酸以多种组合方式排列,形成承载功能的结构,就像字母构成单词和句子承载意义一样。因此,在整个自然语言处理(NLP)的历史中,它的许多技术被应用于蛋白质研究问题。Transformer预训练模型的实施使文本生成具有类似人类的能力,包括具有特定属性的文本,如风格或主题。受其在NLP任务中取得的巨大成功的激励,预计专用Transformer将在不久的将来主导自定义蛋白质序列的生成。对蛋白质家族的预训练模型进行微调,将使它们能够用新的序列来扩展它们,这些序列可能是高度不同的,但仍有潜在的功能。控制标签的结合方式,如细胞区系或功能,进一步使新型蛋白质功能的可控设计成为可能。此外,最近的模型可解释性方法将使我们能够解决”black box“问题,增强我们对蛋白质folding原理的理解。早期的举措显示了生成性语言模型在设计功能序列方面的巨大潜力。作者认为,使用生成性文本模型来创造新的蛋白质是一个很有前途的、在很大程度上未被开发的领域,并讨论了它对蛋白质设计可预见的影响。

论文链接

https://www.nature.com/articles/s42256-022-00499-z