您现在的位置是：首页 > 其他

当前栏目

为什么要使用多GPU并行训练，单卡和多卡训练，bs和lr的关系

训练为什么关系 GPU 并行 lr BS 使用

2023-09-11 14:14:26 时间

参考

https://jishuin.proginn.com/p/763bfbd63d50

理解

为什么要使用多GPU并行训练
简单来说，有两种原因：第一种是模型在一块GPU上放不下，两块或多块GPU上就能运行完整的模型（如早期的AlexNet）。第二种是多块GPU并行计算可以达到加速训练的效果。想要成为“炼丹大师“，多GPU并行训练是不可或缺的技能。

常见的多GPU训练方法：
1.模型并行方式：如果模型特别大，GPU显存不够，无法将一个显存放在GPU上，需要把网络的不同模块放在不同GPU上，这样可以训练比较大的网络。（下图左半部分）

2.数据并行方式：将整个模型放在一块GPU里，再复制到每一块GPU上，同时进行正向传播和反向误差传播。相当于加大了batch_size。（下图右半部分）
在这里插入图片描述

单卡和多大训练，bs和lr的关系

众所周知，learning rate的设置应和batch_size的设置成正比，即所谓的线性缩放原则（linear scaling rule）。但是为什么会有这样的关系呢？这里就Accurate Large Minibatch SGD: Training ImageNet in 1 Hour这篇论文来深入探讨一下其中的原理，以及深度学习模型在分布式训练中需要注意的事情。

猜你喜欢

用CIFilter生成QRCode二维码图片
Python 日期和时间
[图书] C++
golang的基本数据类型和数组默认都是值传递的
git分支
CDH配置Flume无法失效的问题
20出头的应届生(软件测试)，如何进阶自动化、测试开发？
毕业两年工作三年小结
SharePoint 2013 创建web应用程序报错"This page can’t be displayed"
Accurate prediction of molecular targets using a self-supervised image rep...（代码理解）
SQL VQ1 查询所有投递用户user_id并去重

相关主题

训练词向量
蓝桥杯训练7
蓝桥杯训练3
蓝桥杯训练1
深度学习模型训练
NLP-预训练模型-2020
分布式训练
pytorch训练模型

zl程序教程

当前栏目

为什么要使用多GPU并行训练，单卡和多卡训练，bs和lr的关系

参考

理解

单卡和多大训练，bs和lr的关系

相关文章