可编程网络,勇往直前的走在AI路上
2023-03-07 09:12:55 时间
(六)当分布式训练碰到P4可编程的网络
自从人工智能
成为科研人员的热土
各路人马精益求精努力
避免人工智能成为人工智障
因此训练尤其是分布式训练成为常态
此时网络既能载舟亦能覆舟成为新瓶颈
因此
各种分布式训练
与可编程网络的结合
成为学科交叉的又一个热点
2019年微软
首次公开SwitchML宣布
但是
SwitchML
有很大的局限性
并没有解决多Rack分布
以及有效利用交换机资源的问题
因此清华大学团队
推出改进型版本ATP
支持Multi-tenant/Multi-rack
边界越大
意味着困难越大
多机架就要正面网络的问题
ATP在可靠性拥塞控制等方面做了探索
独乐乐
不如众乐乐
和SwitchML一样
ATP代码同样在Github开源
相关文章
- 通过 STS Session Tags 来对 AWS 资源进行更灵活的权限控制
- 案例研究:远程分布式敏捷交付客户项目的实践
- 利用 SageMaker Operator 简化 Kubernetes 上的机器学习任务管理
- 通过 Rekognition 实现无服务器智能相册
- 玩转GPU实例 – 我的Linux 工具箱之三 – 系统优化
- python GUI编程(Tkinter)
- 通过预热 Amazon WorkSpaces 提升用户操作体验
- 使用 Trinity Audio WordPress 插件将您的内容免费转换为音频
- 利用 Amazon CodeGuru Profiler 调查性能问题
- Amazon Elastic Container Service 现在支持 Amazon EFS 文件系统
- 2020 年开源机器人操作系统的新功能
- AWS 在线研讨会 丨3 月课程回顾 干货满满 ?
- Python File(文件)方法
- AWS INNOVATE 2020 即将举行 报名已正式开启 ?
- 利用 Amazon WAM 部署和管理 Amazon WorkSpaces 的应用程序
- 在越来越敏捷的时代,使用 AWS 上的 OpenShift 容器存储管理混合存储
- 发布 Amazon Rekognition 自定义标签
- 使用 AWS IoT OTA 部署工具实现大规模 OTA 任务
- 适用于 DynamoDB 的 CloudWatch Contributor Insights – 现已正式推出
- 玩转 GPU 实例 – 我的 Linux 工具箱之二 – 基础设置