您现在的位置是：首页 > 其它

当前栏目

torch.optim optimizer函数

函数 torch Optimizer

2023-09-11 14:22:51 时间

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source]

实现随机梯度下降算法（momentum可选）。

Nesterov动量基于On the importance of initialization and momentum in deep learning中的公式.

参数：

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float) – 学习率
momentum (float, 可选) – 动量因子（默认：0）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认：0）
dampening (float, 可选) – 动量的抑制因子（默认：0）
nesterov (bool, 可选) – 使用Nesterov动量（默认：False）

例子：

>>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
>>> optimizer.zero_grad() #梯度清零
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

optimizer.zero_grad()函数会遍历模型的所有参数，通过p.grad.detach_()方法截断反向传播的梯度流，再通过p.grad.zero_()函数将每个参数的梯度值设为0，即上一次的梯度记录被清空。

因为训练的过程通常使用mini-batch方法，所以如果不将梯度清零的话，梯度会与上一个batch的数据相关，因此该函数要写在反向传播和梯度下降之前。

step()函数的作用是执行一次优化步骤，通过梯度下降法来更新参数的值。因为梯度下降是基于梯度的，所以在执行optimizer.step()函数前应先执行loss.backward()函数来计算梯度。

注意：optimizer只负责通过梯度下降进行优化，而不负责产生梯度，梯度是tensor.backward()方法产生的。

猜你喜欢

浅谈animation里的forwards
jenkins自动化构建流程篇章二：jenkins任务的创建
NotificationCenter 文档教程(SwiftUI Foundation 中文手册)
[转载]python中if name == 'main'：的作用和原理
script 引用多个文件
Git: checkout all remotes branches
How do I Find Out Linux CPU Utilization?
Windows下phpStudy中的Apache无法启动的排查方法
Coverity谈“开发中测试”与程序员最常犯的编码错误
Android笔记——Activity中的数据传递案例（用户注冊）
如何根据【抖音分享链接】去掉抖音水印
POJ1426 Find The Multiple
一致性哈希算法----nginx负载均衡器配置之一
linux 命令中！加命令是啥意思
HDU 3572 Task Schedule
deeplearning.ai学习seq2seq模型
【小程序】已有公众号认证，一步一步申请小程序（图文）
uni-app - 实现获取手机验证码倒计时 60 秒（手机号+验证码登录功能）
在阿里呆了九年的顶尖大佬手码 Java 三大中间件手册，看完后各大厂都想要我加入他们!

相关主题

C++015-C++函数
函数注释

zl程序教程

当前栏目

torch.optim optimizer函数

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source]

相关文章