您现在的位置是：首页 > Java

当前栏目

强化学习调参技巧一： DDPG算法训练动作选择边界值_分析解决

2023-02-18 16:37:20 时间

1.原因：

选择动作值只在-1 1之间取值 actor网络输出用tanh，将动作规范在[-1,1]，然后线性变换到具体的动作范围。其次，tanh激活区是有范围的，你的预激活变量（输入tanh的）范围太大，进入了tanh的饱和区，会导致梯度消失，而且tanh输出的自然就靠近边界了

2.解决方案：

1、网络的输入输出都是归一化之后的，buffer里的{s,a,r,s_}都是同一个数量级的， 2、修改reward能指导网络正确选择动作进行输出 3.输入的数据要标准化或者归一化，然后学习率调小一点。

建议换算法，DDPG改成TD3改动很小，SAC对超参数没这么敏感，不要死磕DDPG，可以参考曾伊言：如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（已完成）

3.个人最终解决方案：

之前设置隐藏层大小都是一致的，现在把神经元个数增加，然后输入大于输出就好了！

输入256 输出128

猜你喜欢

Spark的分布式存储系统BlockManager全解析
如果云是水滴，Kubernetes就是水滴管理平台
关于代码重构的灵魂三问：是什么？为什么？怎么做？
敏捷规划，让你做一个有计划的开发人
等保数据备份和恢复关键点，这些你该知道！
几款Java开发者必备常用的工具，准点下班不在话下
基于区块链的政务平台设计探索
15年华为云视频架构师采访实录：揭秘未来音视频行业的科技趋势！
让你的产品更懂世界：如何提升场景文本识别中的语言模型
六个步骤，从零开始教你搭建基于WordPress的个人博客
【智简联接，万物互联】华为云·云享专家董昕：Serverless和微服务下， IoT的变革蓄势待发
《痞子衡嵌入式半月刊》第 69 期
什么是全场景AI计算框架MindSpore？
痞子衡嵌入式：对比恩智浦全系列MCU(包含Kinetis/LPC/i.MXRT/MCX)的GPIO电平中断设计差异
一文为你详解Unique SQL原理和应用
痞子衡嵌入式：我被邀请做科锐国际旗下数科同道主办的技术沙龙嘉宾
痞子衡嵌入式：低功耗&高性能边缘人工智能应用的新答案 - MCXN947
《痞子衡嵌入式半月刊》第 68 期
一文带你彻底了解大数据处理引擎Flink内存管理
云图说 | 云上资源管控有神器！关于IAM，你想知道的都在这里！

zl程序教程

当前栏目

强化学习调参技巧一： DDPG算法训练动作选择边界值_分析解决

1.原因：

2.解决方案：

3.个人最终解决方案：

相关文章