zl程序教程

您现在的位置是:首页 >  后端

当前栏目

天壤单序列结构预测再获突破!助力生成生物学更快发展

序列 生成 发展 结构 助力 突破 预测 生物学
2023-06-13 09:15:13 时间

前不久,Meta最近的新角ESMfold以超AlphaFold2一个数量级的速度刷爆AI界,拥有150亿参数规模的超大蛋白质语言模型,不依赖MSA信息,能够直接对单一蛋白质进行原子精度级别的预测,被AI界的重量级人物图灵奖得主Yann LeCun称赞为Meta-FAIR蛋白质团队的伟大新成果。

天壤XLab作为国内率先将AI应用于生物科技的创新团队,继在蛋白质结构预测、蛋白设计方面取得重大突破后,同样也开发出全新的TRFold-Single,仅采用单序列的方式对蛋白质进行高准确度快速预测。平均预测一条单序列时间TRFold-Single仅需25s,相较于AlphaFold2预测所需1000s,时间大大缩短。在对结构已被解析的86个设计蛋白质进行预测评测时,AlphaFold2预测结果为82.6,而TRFold-Single预测性能更优,平均分值达86.2。

五十年来,科学家们基于安芬森提出的“自然条件下蛋白质的高级空间结构由蛋白质的氨基酸序列决定”的猜想,通过各种各样的方法预测蛋白质的三维结构。直到AlphaFold 的出现,才破解“蛋白质折叠”这一复杂难题。

而AlphaFold2 采用的是从蛋白质的进化史中提取并学习氨基酸的共进化信息(即MSA同源序列)的方式,根据目标序列从数据库中寻找同源序列,构建MSA并提取学习共进化信息,再映射到三维空间,从而预测蛋白质的结构。TRFold-Single则打破“唯共进化信息”这一理论方法的限制,开创全新的仅依赖蛋白质序列信息进行三维结构预测的技术,这在预测领域属底层原理的创新突破。

不再依赖MSA信息

速度更快 算力更小

TRFold-Single可以端到端地对单序列结构进行预测,不再依赖同源MSA作为输入需要。MSA信息是从现存生物体中测出并被记录下来的,然而有很多在自然进化历史当中未曾出现过的蛋白质,以及大量人工设计生成的蛋白质,本身就缺乏同源信息,此类蛋白质的结构预测一直处于空白。现在可以不受MSA的限制,无需多序列比对信息,输入单一序列即可推理获得蛋白质的三维结构。

此前基于MSA共进化信息的TRFold在进行单一蛋白质序列的结构预测时,需构建搜索MSA和进化相关序列的训练,耗时长且占用更多计算资源。而XLab团队迭代开发的TRFold-Single,使用预训练语言模型的embedding(单序列编码)和注意力权重作为输入,通过处理单序列的Transfomer架构,直接替代处理MSA信息的模块,得到蛋白质的准确结构。

类似于TRfold, TRFold-single 同时学习每个残基的空间坐标,和残基两两间的的几何关系。TRFold- single 从预训练语言模型的注意力权重中提取初始的残基间相互关系信息。由于不再包含MSA相关模块,TRFold-single 中残基编码与残基对编码之间的交互方式更加高效。

在全球蛋白质结构预测竞赛CAMEO 2月的测试集中,TRFold(withMSA)不仅取得与AlphaFold2同等水平的成绩,基于单序列构建的TRFold-Single 结构预测分值达82分,远超AlphaFold2,性能更佳。

加速设计和优化

拓展生成生物学空间

更高效的预测手段意味着更大的蛋白质结构、功能空间的探索和更深入的理解,不仅可以填补快速增长的蛋白质序列数据库与进展缓慢的蛋白质结构和功能数据库之间的鸿沟,对复杂度更高的复合体预测、模拟蛋白质之间的相互作用,及抗体和蛋白设计来说,都具有颠覆性意义。

如自然界中有大量孤儿蛋白质序列,本身就不存在MSA共进化信息,以及一些MSA不够深的情况,难以被抽取特征学习;还有大量根据功能生成氨基酸序列的抗体和蛋白药设计,也不包含任何MSA信息,TRFold-Single可以提供一个更加有效的预测工具,突破蛋白质同源进化信息有限的局面,加速此类蛋白的结构预测优化和设计流程,推动生成更有效的满足目标功能的特定蛋白质。

抗体是由于抗原刺激产生的具有保护作用的单向进化蛋白质,从作用原理来说本身不存在共进化信息。在此种情况下,TRFold-Single可以直接预测其关键结构CDR功能区域,这对由配体相互作用而产生结构的大分子药物设计来说有重要意义。

此外,天壤XLab团队选用86个结构已被解析的设计蛋白质进行预测评测,AlphaFold2预测结果为82.6,而TRFold-Single预测性能更优,平均分值达86.2,在非天然蛋白质结构预测方面更具优势。

复合体结构预测与设计

深入研究蛋白质相互作用原理

能够非常快速的预测一个单链蛋白质还不够。蛋白质很多时候以复合物的形式成组地发挥功能,比如和其他小分子或者蛋白质进行相互作用,才能够完成生物体生存所需的种种任务。

相比单链结构的预测,复合物中氨基酸总数大大增加,所需的计算机内存和算力更是迅速增加。天壤XLab通过空间采样的增强方式增加训练数据多样性,启发式搜索解决多链错配和蛋白质手性问题,通过分子动力学力场优化结合表面原子结构,获得准确的蛋白质相互作用信息,去绘制细胞内蛋白质相互作用通路图。

以AI为主导,天壤XLab已构建了TRFold(withMSA)、TRFold-Single、TRDesign、TRComplex四大核心能力,目前正积极推进实验验证。后续我们将对外开放完整的蛋白质设计开发平台,希望将技术赋能产业,协同更多伙伴一起为应对新药开发、疾病研究、抗体设计、酶设计与优化及其他未被满足的工业、农业需求和挑战做出贡献。

--------- End ---------