zl程序教程

您现在的位置是:首页 >  其他

当前栏目

7 Papers & Radios |华盛顿大学等开发媲美AlphaFold2的新工具RoseTTAFold

amp工具开发 Papers Radios 媲美 AlphaFold2 华盛顿大学
2023-06-13 09:17:56 时间

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周的重要论文包括华盛顿大学等开发媲美 AlphaFold2 的新工具 RoseTTAFold,而且速度更快、所需要的计算机处理能力也较低;邢波团队的研究入选计算机系统软件顶会 OSDI 2021 最佳论文等。

目录:

  1. A Survey on Curriculum Learning 
  2. Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep Learning
  3. Accurate prediction of protein structures and interactions using a three-track neural network
  4. ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases 
  5. Real-time optimal quantum control of mechanical motion at room temperature
  6. Computationally Efficient Optimization of Plackett-Luce Ranking Models for Relevance and Fairness
  7. Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:A Survey on Curriculum Learning

  • 作者:Xin Wang、 Yudong Chen、 Wenwu Zhu
  • 论文链接:https://arxiv.org/pdf/2010.13166.pdf

摘要:课程学习是一种训练策略,它模仿了人类课程中有意义的学习顺序,从较容易的数据开始训练机器学习模型,并逐步加入较难的数据。课程学习策略作为一个易于使用的插件,在计算机视觉和自然语言处理等广泛的场景中,提高了模型的泛化能力和收敛速度。本文从动机、定义、理论和应用等各个方面全面回顾了课程学习。研究者在一个通用的课程学习框架中讨论课程学习方法,详细阐释如何设计一个预定义的课程或自动的课程。具体来说,研究者基于 “难度评分器 + 训练调度器” 的总体框架,总结了现有的课程学习设计,并进一步将自动课程学习的方法分为四类,即自步学习、基于迁移教师的课程学习、基于强化教师的课程学习、其他自动课程学习。最后,研究者简要讨论了课程学习与机器学习概念的联系,并指出了未来值得进一步研究的潜在方向。

CL 方法的分类和相应的插图。

CL 现有应用场景分为两组。

推荐:课程学习现状调查。

论文 2:Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep Learning

  • 作者:Aurick Qiao、 Sang Keun Choe、 Suhas Jayaram Subramanya、 Willie Neiswanger、Qirong Ho、 Hao Zhang、 Gregory R. Ganger、 Eric P. Xing
  • 论文链接:https://www.pdl.cmu.edu/PDL-FTP/CloudComputing/osdi21-pollux.pdf

摘要:大多数现有调度程序希望用户为每个作业指定资源数量,这通常会导致资源使用效率低下。近来,一些调度程序帮助用户选择分配给作业的资源,但却忽略了重新优化深度学习训练,无法更好地利用所提供的资源。该研究提出的 Pollux 通过在 per-job 级别和 cluster-wide 级别自适应地协同优化相互依赖的因子,提高了深度学习 (DL) 集群中的调度性能。该研究同时考虑了上述两个方面,并提出了一种名为 Goodput 的新指标,将系统吞吐量与统计效率相结合。通过在训练期间监控每个作业的状态,Pollux 模拟了在添加和移除资源时每个作业的 Goodput 变化。利用这些信息,Pollux 动态(重新)分配资源以提高 cluster-wide 的 goodput,同时尊重公平性并不断优化每个深度学习作业,以更好地利用资源。在实际深度学习作业和轨迹驱动(trace-driven)模拟的实验中,相比于 SOTA 深度学习调度程序,Pollux 将平均作业完成时间减少了 37-50%,并为每个作业提供了理想的资源和训练配置。Pollux 基于对有用作业完成进度提出更有意义的衡量指标,来提升深度学习作业竞争资源的公平性,并揭示了在云环境下降低深度学习成本具有新机会。

Pollux 的协同自适应调度架构。

推荐:邢波团队研究入选计算机系统软件顶会 OSDI 2021 最佳论文。

论文 3:Accurate prediction of protein structures and interactions using a three-track neural network

  • 作者:David Baker、Minkyung Baek、Frank DiMaio、Ivan Anishchenko 等
  • 论文链接:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

摘要:华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 领导的计算生物学家团队开发了一款叫做「RoseTTAFold」的软件工具,该工具利用深度学习技术,根据有限信息准确、快速地预测蛋白质结构,原本这一工作需要数年的实验室研究。从结构上来看,RoseTTAFold 是一个三轨(three-track)神经网络,意味着它可以兼顾蛋白质序列的模式、氨基酸如何相互作用以及蛋白质可能的三维结构。在这种结构中,一维、二维、三维信息来回流动,使得网络能够集中推理蛋白质的化学部分与它的折叠结构。下图 A 为具有 1D、2D 和 3D 注意力轨迹(attention track)的 RoseTTAFold 架构;B 为 CASP14 目标上蛋白质预测方法的平均 TM-score;C 为 CAMEO 中介(medium)和硬(hard)目标的盲基准测试结果。

RoseTTAFold 方法的准确率比目前可用的方法高得多,因而研究者想要测试是否可以利用它解决以前未解决且具有挑战性的 MR 问题,并改进临界个案的解决方案。四个最近的晶体数据集,包括牛属甘氨酸 N - 酰基转移酶(GLYAT)、细菌氧化还原酶以及细菌表面层蛋白(SLP)(下图 A)和来自真菌平革菌属金孢子菌属的分泌蛋白(下图 B),基于 PDB 蛋白质数据库中可用的模型无法利用 MR 解决,因此研究者使用 RoseTTAFold 模型进行了重新分析:

下图为使用 RoseTTAFold 的蛋白质预测流程。其中,A 和 B 是从序列信息中预测大肠杆菌蛋白复合物的结构;C 表示由 RoseTTAFold 生成的 IL-12R/IL-12 复合结构符合以前发表的低温电子显微镜(cryo-EM)密度(EMD-21645)。

推荐:华盛顿大学等开发媲美 AlphaFold2 的新工具 RoseTTAFold。

论文 4:ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases

  • 作者:Stephane d’Ascoli 、Hugo Touvron、Matthew L. Leavitt、Ari S. Morcos、 Giulio Biroli、 Levent Sagun
  • 论文链接:https://arxiv.org/pdf/2103.10697.pdf

摘要:来自 Facebook 的研究者提出了一种名为 ConViT 的新计算机视觉模型,它结合了两种广泛使用的 AI 架构——卷积神经网络 (CNN) 和 Transformer,该模型取长补短,克服了 CNN 和 Transformer 本身的一些局限性。同时,借助这两种架构的优势,这种基于视觉 Transformer 的模型可以胜过现有架构,尤其是在小数据的情况下,同时在大数据的情况下也能实现类似的优秀性能。

ConViT 在 vision Transformer 的基础上进行了调整,以利用 soft 卷积归纳偏置,从而激励网络进行卷积操作。同时最重要的是,ConViT 允许模型自行决定是否要保持卷积。为了利用这种 soft 归纳偏置,研究者引入了一种称为「门控位置自注意力(gated positional self-attention,GPSA)」的位置自注意力形式,其模型学习门控参数 lambda,该参数用于平衡基于内容的自注意力和卷积初始化位置自注意力。

如上图所示,ConViT(左)在 ViT 的基础上,将一些自注意力(SA)层用门控位置自注意力层(GPSA,右)替代。因为 GPSA 层涉及位置信息,因此在最后一个 GPSA 层之后,类 token 会与隐藏表征联系到一起。

如上图所示,左图为 ConViT-S 与 DeiT-S 的样本效率对比结果,这两个模型是在相同的超参数,且都是在 ImageNet-1k 的子集上训练完成的。图中绿色折线是 ConViT 相对于 DeiT 的提升。研究者还在 ImageNet-1k 上比较了 ConViT 模型与其他 ViT 以及 CNN 的 top-1 准确率,如上右图所示。

测试是在 ImageNet-1K 上进行的,没有进行知识蒸馏,结果如下:

推荐:兼具 CNN 和 Transformer 优势,灵活使用归纳偏置,Facebook 提出 ConViT。

论文 5:Real-time optimal quantum control of mechanical motion at room temperature

  • 作者:Lorenzo Magrini、Philipp Rosenzweig、Constanze Bach 等
  • 论文链接:https://www.nature.com/articles/s41586-021-03602-3

摘要:来自维也纳大学、维尔纳工业大学、斯图加特大学和奥地利科学院等机构的研究者展示了对光学捕获纳米粒子的量子轨迹的实时优化控制。他们将接近海森堡极限(Heisenberg limit)的共焦位置传感与通过卡尔曼滤波进行的最优状态估计相结合,以实时追踪相空间中的例子运动,位置不确定性是零点波动的 1.3 倍。最优反馈可以将量子谐振子的量子占有率稳定在 0.56 ± 0.02 量子,从而实现了从室温开始的量子基态冷却。具体地,研究者现在能够以前所未有的精度测量由 10 亿个原子组成的热玻璃球(直径小于 200 纳米),并在量子水平上实现对它的控制。在实验中,热玻璃球的运动被故意放慢直到其呈现出尽可能低能量的基态。测量方法几乎达到了海森堡不确定性原理设定的极限,即物理学中所不允许出现比这更高的精度。研究者通过将控制工程学中的特殊方法应用于量子系统实现了这一点。

实验设置。

卡尔曼滤波和验证。

推荐:无限接近海森堡极限,控制小玻璃球量子运动研究登上 Nature 封面

论文 6:Computationally Efficient Optimization of Plackett-Luce Ranking Models for Relevance and Fairness

  • 作者:Harrie Oosterhuis
  • 论文链接:https://arxiv.org/pdf/2105.00855.pdf

摘要:最近的研究表明,随机 Plackett-Luce(PL)排序模型在优化相关性和公平性方面是一种鲁棒的选择。与启发式优化算法的确定性模型不同,PL 模型是完全可微的。理论上,它们可以通过随机梯度下降算法来优化排名指标。但实际应用中梯度计算不可行,因为梯度计算需要迭代所有可能项的排列。因此,实际应用通常用采样技术来近似梯度。本文引入了一种新的算法:PL-Rank,它可以同时估计 PL-ranking 模型的相关性指标和公平性指标。不同于基于策略梯度方法,PL-Rank 利用了 PL 模型和排序度量的特定结构。结果表明,PL-Rank 比策略梯度具有更高的样本效率和更低的计算成本,即使在更高的性能下也能够更快地收敛。

PL-Rank。

推荐:SIGIR 2021 最佳论文奖。

论文 7:Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research

  • 作者:Iuliia Kotseruba
  • 论文链接:https://arxiv.org/abs/2011.14826

摘要:来自谷歌的研究者首先讨论了与 Rainbow 算法相关的计算成本。研究者探讨了通过结合多种算法组件,以小规模实验得到与 Rainbow 算法一致的结果,并将该想法进一步推广到在较小的计算预算上进行的研究如何提供有价值的科学见解。

与原始 Rainbow 算法的论文一样,研究者评估了在原始 DQN 算法中添加以下组件的效果:双 Q 学习(double Q-learning)、优先经验回放(prioritized experience replay,PER)、竞争网络、多步学习、分布式强化学习和嘈杂网络。该研究在四个经典控制环境中进行评估。需要注意的是,相比于 ALE 游戏需要 5 天,这些环境在 10-20 分钟内就可以完成完全训练:

左上:在 CartPole 中,游戏任务是智能体通过左右移动平衡推车上的一根杆子;右上:在 Acrobot 中,有两个杠杆和两个连接点,智能体需要向两个杠杆之间的连接点施加力以抬高下面的杠杆使其高于某个高度要求。左下:在 LunarLander 中,智能体的任务是将飞船降落在两个旗帜之间;右下:在 MountainCar 中,智能体需要在两座山丘之间借助一定的动力将车开到右边的山顶。

研究者探究了将每个组件单独添加到 DQN 以及从完整 Rainbow 算法中删除每个组件的效果,并发现总的来说每一个算法组件的添加都确实改进了基础 DQN 的学习效果。然而,该研究也发现了一些重要的差异,例如通常被认为能起到改进作用的分布式 RL 自身并不总是能够产生改进。实际上,与 Rainbow 论文中的 ALE 结果相反,在经典控制环境中,分布式 RL 仅在与其他组件结合时才会产生改进。

上图显示了在 4 个经典控制环境中,向 DQN 添加不同组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越好)。

上图显示了在 4 个经典控制环境中,从 Rainbow 中移除各种组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越好)。

推荐:强化学习可以降低计算成本。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. DISCO : efficient unsupervised decoding for discrete natural language problems via convex relaxation.  (from Inderjit Dhillon)

2. Transition-based Bubble Parsing: Improvements on Coordination Structure Prediction.  (from Lillian Lee)

3. TGIF: Tree-Graph Integrated-Format Parser for Enhanced UD with Two-Stage Generic- to Individual-Language Finetuning.  (from Lillian Lee)

4. Noise Stability Regularization for Improving BERT Fine-tuning.  (from Jiebo Luo)

5. A Survey on Low-Resource Neural Machine Translation.  (from Tie-Yan Liu)

6. Learning Algebraic Recombination for Compositional Generalization.  (from Nanning Zheng)

7. Multi-Task Learning based Online Dialogic Instruction Detection with Pre-trained Language Models.  (from Hang Li, Jiliang Tang)

8. FST: the FAIR Speech Translation System for the IWSLT21 Multilingual Shared Task.  (from Holger Schwenk)

9. ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language Modelling track, 2021 edition.  (from Emmanuel Dupoux)

10. Deduplicating Training Data Makes Language Models Better.  (from Chris Callison-Burch)

本周 10 篇 CV 精选论文是:

1. Self-Supervised Multi-Modal Alignment for Whole Body Medical Imaging.  (from Andrew Zisserman)

2. Learning 3D Dense Correspondence via Canonical Point Autoencoder.  (from Ming-Hsuan Yang)

3. Hybrid Memoised Wake-Sleep: Approximate Inference at the Discrete-Continuous Interface.  (from Joshua B. Tenenbaum)

4. Locally Enhanced Self-Attention: Rethinking Self-Attention as Local and Context Terms.  (from Alan Yuille)

5. Deep Automatic Natural Image Matting.  (from Dacheng Tao)

6. GREN: Graph-Regularized Embedding Network for Weakly-Supervised Disease Localization in X-ray images.  (from Licheng Jiao)

7. Visual Parser: Representing Part-whole Hierarchies with Transformers.  (from Philip Torr)

8. Passive attention in artificial neural networks predicts human visual selectivity.  (from Thomas L. Griffiths)

9. StyleFusion: A Generative Model for Disentangling Spatial Segments.  (from Daniel Cohen-Or)

10. Neighbor-view Enhanced Model for Vision and Language Navigation.  (from Liang Wang, Tieniu Tan)

本周 10 篇 ML 精选论文是:

1. Representation Learning for Out-Of-Distribution Generalization in Reinforcement Learning.  (from Bernhard Schölkopf)

2. Robust Counterfactual Explanations on Graph Neural Networks.  (from Jian Pei)

3. Explore and Control with Adversarial Surprise.  (from Stuart Russell, Sergey Levine)

4. The Benchmark Lottery.  (from Oriol Vinyals)

5. MultiBench: Multiscale Benchmarks for Multimodal Representation Learning.  (from Ruslan Salakhutdinov, Louis-Philippe Morency)

6. An Overview and Experimental Study of Learning-based Optimization Algorithms for Vehicle Routing Problem.  (from Witold Pedrycz)

7. Fairness in Ranking under Uncertainty.  (from Thorsten Joachims)

8. Combiner: Full Attention Transformer with Sparse Computation Cost.  (from Jure Leskovec)

9. Tourbillon: a Physically Plausible Neural Architecture.  (from Pierre Baldi)

10. ANCER: Anisotropic Certification via Sample-wise Volume Maximization.  (from Philip H. S. Torr)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com