您现在的位置是：首页 > 其他

当前栏目

什么是强化学习

2023-04-18 15:51:24 时间

强化学习流程：

我们的代理从环境接收 — 我们接收游戏的第一帧（环境） State S0
基于代理采取的情况 — 我们的代理将向右移动 S0 action A0
环境走向新的——新的框架 State S0
环境给了代理一些——我们没有死（正面奖励+1）Reward R0

RL 循环输出一系列状态、操作、奖励和下一个状态

解决强化学习问题的两种主要方法：

这个政策是我们想要学习的功能，我们的目标是找到最优的政策π*，当代理人按照它行事时，期望回报最大化的策略。我们通过培训发现这一点π*。有两种方法可以训练我们的代理找到此最佳策略π*：

直接地，通过教代理了解在给定当前状态的情况下采取哪些操作：基于策略的方法。 Policy-Based Methods
间接地，教代理了解哪种状态更有价值，然后采取导致更有价值的状态的操作：基于值的方法。 Policy-Based Methods

基于策略的方法：

在基于策略的方法中，我们直接学习策略函数。

此函数将定义每个状态与最佳相应操作之间的映射。我们也可以说，它将定义该状态下可能操作集的概率分布。

我们有两种类型的策略：

确定性：处于给定状态的策略将始终返回相同的操作。

操作=策略（状态）

随机指标：输出操作的概率分布。

基于价值的方法：

在基于值的方法中，我们学习的不是策略函数，而是将状态映射到处于该状态的期望值的值函数。

状态的值是代理在从该状态开始时可以获得的预期折扣回报，然后根据我们的策略进行操作。

“按照我们的策略行事”只是意味着我们的政策是“走向价值最高的状态”

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程