gget alphafold三行命令预测蛋白质三维结构
近些天,AlphaFold在热度不减的基础上又火了一把,二话不说直接确定了约2亿个蛋白质的结构,范围覆盖地球上几乎所有已知生物[1]。
doi: 10.1038/d41586-022-02083-2
尽管AlphaFold2可以通过Docker运行,但是
- 需要下载数据库(需要消耗约3TB的存储空间)
- 12vCPU, 85GB RAM的高计算要求(远超笔记本)
逛Twitter的时候,发现有一款新的工具gget alphafold[2]用于预测蛋白质的3D结构,我们本期就来盘一盘这个新工具。
https://twitter.com/NeuroLuebbert/status/1555968042948915200
按作者的话说,gget alphafold 基于2.0版本的AlphaFold,在任何电脑/服务器上的Python环境下,仅仅只需要4 GB的硬盘,三行代码就可以运行。这对个人用户相当友好!
应用相同的算法,gget alphaold 产生与 AlphaFold Colab 相似的结果。
The comparison of the CASP14 target T1024 was created from the PDBs returned by gget alphafold and AlphaFold
为了证明它的准确性好使,作者将与她18年的工作[3]中预测的结构进行了比较。
预测是不完美的,这也说明了AlphaFold2的局限性,主要是在预测参考数据库中没有发现的残基时(如GFP和传感器之间的linker)。
但结构预测可以引导我们(作者)猜测哪些残基会发生突变。
gget alphafold会返回每个氨基酸的预测结构(PDB)和比对误差(json),PDB可以通过https://www.rcsb.org/3d-view或PyMOL查看。
当然,gget alphafold也不是唯一的通过命令行运行alphafold的工具,Martin Steinegger的实验室曾开发了一个ColabFold[4],可在本地运行预测,不足之处是也需要下载940GB的数据库。
为了尽量减少依赖性,gget alphaold 目前还没有配置利用 GPU,与 AlphaFold Colab 相比,可能需要多达10倍的时间才能在本地计算机上运行。然而,由于它的轻量化,它可以很容易地集成到现有的工作流。
关于内存占用,作者表示最多几个G,你甚至可以用17款的MacBook,一边看HD的netflix一边预测蛋白结构。
最后作者提供了一个Colab notebook链接[5],让大家无需服务器,点点点就能完成蛋白结构预测。
实测环节
选择了我们韩老板在18年发表在Nature上的文章A kiwellin disarms the metabolic activity of a secreted fungal virulence factor中的Cmu1蛋白[6]作为测试对象。
Linux
# 创建一个新的python3.8小环境
conda create -n gget python=3.8 -y
conda activate gget
conda install gget -y
# 安装依赖
conda install -c conda-forge openmm=7.5.1 -y
python # 进入python环境
import gget
gget.setup("alphafold") # 需要安装一会依赖
# 输入蛋白序列即可预测
gget.alphafold("MKLSVSIFVLLAVSAFGGGSAAAVSGKSEAAEIEAGDRLDALRDQLQRYETPIIQTILARSALGGRAPSEQDEVRAALSRNAFEPSEVISEWLQTESGARFRSTRPLPPAVEFITPVVLSRDTVLDKPVVGKGIFPIGRRPQDPTNMDEFLDTSLLSLNQSSTVDLASAVSLDVSLLHLVSARVLLGYPIALAKFDWLHDNFCHILTNTTLSKSQKLANIIQQLTDHKQEVNVLSRVEQKSKSLSHLFRNDIPYPPHTQDRILRLFQAYLIPITTQIEAAAILDHANKCT")
耗时2 h起步。
Colab在线(推荐)
这个就非常简单了,不要修改下图中的命令,按箭头顺序点击运行命令。
作者也好心的提供了帮助文档,我们只用修改红框中的蛋白序列运行即可。
运行结束后会输出四张图。
实测在Colab上不到1.5 h就完成了预测,准确性似乎还行。
参考资料
[1]
‘The entire protein universe’: AI predicts shape of nearly every known protein: https://www.nature.com/articles/d41586-022-02083-2
[2]
Laura Luebbert的推特原文: https://twitter.com/NeuroLuebbert/status/1555968173609865216
[3]
Fluorescence activation mechanism and imaging of drug permeation with new sensors for smoking-cessation ligands: https://elifesciences.org/articles/74648
[4]
ColabFold: https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
[5]
Colab notebook链接: https://colab.research.google.com/drive/1IcpXnPD8rrmngr1x3SuQQiE0X_f4lGpY?usp=sharing
[6]
Cmu1蛋白: https://www.ncbi.nlm.nih.gov/protein/A0A0D1DWQ2.1
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的