zl程序教程

您现在的位置是:首页 >  其他

当前栏目

gget alphafold三行命令预测蛋白质三维结构

2023-03-07 09:47:00 时间

近些天,AlphaFold在热度不减的基础上又火了一把,二话不说直接确定了约2亿个蛋白质的结构,范围覆盖地球上几乎所有已知生物[1]

doi: 10.1038/d41586-022-02083-2

尽管AlphaFold2可以通过Docker运行,但是

  • 需要下载数据库(需要消耗约3TB的存储空间)
  • 12vCPU, 85GB RAM的高计算要求(远超笔记本)

逛Twitter的时候,发现有一款新的工具gget alphafold[2]用于预测蛋白质的3D结构,我们本期就来盘一盘这个新工具。

https://twitter.com/NeuroLuebbert/status/1555968042948915200

按作者的话说,gget alphafold 基于2.0版本的AlphaFold,在任何电脑/服务器上的Python环境下,仅仅只需要4 GB的硬盘,三行代码就可以运行。这对个人用户相当友好!

应用相同的算法,gget alphaold 产生与 AlphaFold Colab 相似的结果。

The comparison of the CASP14 target T1024 was created from the PDBs returned by gget alphafold and AlphaFold

为了证明它的准确性好使,作者将与她18年的工作[3]中预测的结构进行了比较。

预测是不完美的,这也说明了AlphaFold2的局限性,主要是在预测参考数据库中没有发现的残基时(如GFP和传感器之间的linker)。

但结构预测可以引导我们(作者)猜测哪些残基会发生突变。


gget alphafold会返回每个氨基酸的预测结构(PDB)和比对误差(json),PDB可以通过https://www.rcsb.org/3d-view或PyMOL查看。

当然,gget alphafold也不是唯一的通过命令行运行alphafold的工具,Martin Steinegger的实验室曾开发了一个ColabFold[4],可在本地运行预测,不足之处是也需要下载940GB的数据库。

为了尽量减少依赖性,gget alphaold 目前还没有配置利用 GPU,与 AlphaFold Colab 相比,可能需要多达10倍的时间才能在本地计算机上运行。然而,由于它的轻量化,它可以很容易地集成到现有的工作流。

关于内存占用,作者表示最多几个G,你甚至可以用17款的MacBook,一边看HD的netflix一边预测蛋白结构。

最后作者提供了一个Colab notebook链接[5],让大家无需服务器,点点点就能完成蛋白结构预测。

实测环节

选择了我们韩老板在18年发表在Nature上的文章A kiwellin disarms the metabolic activity of a secreted fungal virulence factor中的Cmu1蛋白[6]作为测试对象。

Linux

# 创建一个新的python3.8小环境
conda create -n gget python=3.8 -y
conda activate gget
conda install gget -y

# 安装依赖
conda install -c conda-forge openmm=7.5.1 -y

python # 进入python环境
import gget
gget.setup("alphafold") # 需要安装一会依赖
# 输入蛋白序列即可预测
gget.alphafold("MKLSVSIFVLLAVSAFGGGSAAAVSGKSEAAEIEAGDRLDALRDQLQRYETPIIQTILARSALGGRAPSEQDEVRAALSRNAFEPSEVISEWLQTESGARFRSTRPLPPAVEFITPVVLSRDTVLDKPVVGKGIFPIGRRPQDPTNMDEFLDTSLLSLNQSSTVDLASAVSLDVSLLHLVSARVLLGYPIALAKFDWLHDNFCHILTNTTLSKSQKLANIIQQLTDHKQEVNVLSRVEQKSKSLSHLFRNDIPYPPHTQDRILRLFQAYLIPITTQIEAAAILDHANKCT")

耗时2 h起步。

Colab在线(推荐)

这个就非常简单了,不要修改下图中的命令,按箭头顺序点击运行命令。

作者也好心的提供了帮助文档,我们只用修改红框中的蛋白序列运行即可。

运行结束后会输出四张图。

实测在Colab上不到1.5 h就完成了预测,准确性似乎还行。

参考资料

[1]

‘The entire protein universe’: AI predicts shape of nearly every known protein: https://www.nature.com/articles/d41586-022-02083-2

[2]

Laura Luebbert的推特原文: https://twitter.com/NeuroLuebbert/status/1555968173609865216

[3]

Fluorescence activation mechanism and imaging of drug permeation with new sensors for smoking-cessation ligands: https://elifesciences.org/articles/74648

[4]

ColabFold: https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

[5]

Colab notebook链接: https://colab.research.google.com/drive/1IcpXnPD8rrmngr1x3SuQQiE0X_f4lGpY?usp=sharing

[6]

Cmu1蛋白: https://www.ncbi.nlm.nih.gov/protein/A0A0D1DWQ2.1