您现在的位置是：首页 > 其他

当前栏目

gget alphafold三行命令预测蛋白质三维结构

命令

2023-03-07 09:47:00 时间

近些天，AlphaFold在热度不减的基础上又火了一把，二话不说直接确定了约2亿个蛋白质的结构，范围覆盖地球上几乎所有已知生物[1]。

doi: 10.1038/d41586-022-02083-2

尽管AlphaFold2可以通过Docker运行，但是

需要下载数据库（需要消耗约3TB的存储空间）
12vCPU, 85GB RAM的高计算要求（远超笔记本）

逛Twitter的时候，发现有一款新的工具gget alphafold[2]用于预测蛋白质的3D结构，我们本期就来盘一盘这个新工具。

https://twitter.com/NeuroLuebbert/status/1555968042948915200

按作者的话说，gget alphafold 基于2.0版本的AlphaFold，在任何电脑/服务器上的Python环境下，仅仅只需要4 GB的硬盘，三行代码就可以运行。这对个人用户相当友好！

应用相同的算法，gget alphaold 产生与 AlphaFold Colab 相似的结果。

The comparison of the CASP14 target T1024 was created from the PDBs returned by gget alphafold and AlphaFold

为了证明它的~~准确性~~好使，作者将与她18年的工作[3]中预测的结构进行了比较。

预测是不完美的，这也说明了AlphaFold2的局限性，主要是在预测参考数据库中没有发现的残基时(如GFP和传感器之间的linker)。

但结构预测可以引导我们（作者）猜测哪些残基会发生突变。

gget alphafold会返回每个氨基酸的预测结构(PDB)和比对误差(json)，PDB可以通过https://www.rcsb.org/3d-view或PyMOL查看。

当然，gget alphafold也不是唯一的通过命令行运行alphafold的工具，Martin Steinegger的实验室曾开发了一个ColabFold[4]，可在本地运行预测，不足之处是也需要下载940GB的数据库。

为了尽量减少依赖性，gget alphaold 目前还没有配置利用 GPU，与 AlphaFold Colab 相比，可能需要多达10倍的时间才能在本地计算机上运行。然而，由于它的轻量化，它可以很容易地集成到现有的工作流。

关于内存占用，作者表示最多几个G，你甚至可以用17款的MacBook，一边看HD的netflix一边预测蛋白结构。

最后作者提供了一个Colab notebook链接[5]，让大家无需服务器，点点点就能完成蛋白结构预测。

实测环节

选择了我们韩老板在18年发表在Nature上的文章A kiwellin disarms the metabolic activity of a secreted fungal virulence factor中的Cmu1蛋白[6]作为测试对象。

Linux

# 创建一个新的python3.8小环境
conda create -n gget python=3.8 -y
conda activate gget
conda install gget -y

# 安装依赖
conda install -c conda-forge openmm=7.5.1 -y

python # 进入python环境
import gget
gget.setup("alphafold") # 需要安装一会依赖

# 输入蛋白序列即可预测
gget.alphafold("MKLSVSIFVLLAVSAFGGGSAAAVSGKSEAAEIEAGDRLDALRDQLQRYETPIIQTILARSALGGRAPSEQDEVRAALSRNAFEPSEVISEWLQTESGARFRSTRPLPPAVEFITPVVLSRDTVLDKPVVGKGIFPIGRRPQDPTNMDEFLDTSLLSLNQSSTVDLASAVSLDVSLLHLVSARVLLGYPIALAKFDWLHDNFCHILTNTTLSKSQKLANIIQQLTDHKQEVNVLSRVEQKSKSLSHLFRNDIPYPPHTQDRILRLFQAYLIPITTQIEAAAILDHANKCT")

耗时2 h起步。

Colab在线（推荐）

这个就非常简单了，不要修改下图中的命令，按箭头顺序点击运行命令。

作者也好心的提供了帮助文档，我们只用修改红框中的蛋白序列运行即可。

运行结束后会输出四张图。

实测在Colab上不到1.5 h就完成了预测，准确性似乎还行。

参考资料

[1]

‘The entire protein universe’: AI predicts shape of nearly every known protein: https://www.nature.com/articles/d41586-022-02083-2

[2]

Laura Luebbert的推特原文: https://twitter.com/NeuroLuebbert/status/1555968173609865216

[3]

Fluorescence activation mechanism and imaging of drug permeation with new sensors for smoking-cessation ligands: https://elifesciences.org/articles/74648

[4]

ColabFold: https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

[5]

Colab notebook链接: https://colab.research.google.com/drive/1IcpXnPD8rrmngr1x3SuQQiE0X_f4lGpY?usp=sharing

[6]

Cmu1蛋白: https://www.ncbi.nlm.nih.gov/protein/A0A0D1DWQ2.1

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程