gym强化学习入门demo——随机选取动作 其实有了这些动作和反馈值以后就可以用来训练DNN网络了
2023-09-14 09:11:52 时间
# -*- coding: utf-8 -*- import gym import time env = gym.make('CartPole-v0') observation = env.reset() print(observation) print("env actionspace:") print(env.action_space) print("env observationspace:") print(env.observation_space) print(env.observation_space.high) print(env.observation_space.low) count = 0 for t in range(100): #随机选择一个动作 action = env.action_space.sample() #执行动作 获取环境反馈 observation, reward, done, info = env.step(action) #如果玩死了就退出 if done: break env.render() count+=1 time.sleep(0.2) print(count)
效果图:
相关文章
- Java实现蓝桥杯VIP 算法训练 阶乘末尾
- Java实现 蓝桥杯 算法训练 Multithreading
- Java实现 蓝桥杯VIP 算法训练 采油区域
- Java实现 蓝桥杯VIP 算法训练求先序排列
- Java实现 蓝桥杯VIP 算法训练 入学考试
- Java实现 蓝桥杯VIP 算法训练 最长字符串
- Java实现 蓝桥杯VIP 算法训练 二元函数
- Java蓝桥杯 算法训练 复数归一化
- 训练深度学习网络时候,出现Nan 或者 震荡
- Python视觉深度学习系列教程 第三卷 第1章 使用多个 GPU 训练网络
- NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略
- CV之FR:基于Keras框架利用训练好的hdf5模型直接进行人脸识别推理(cv2自带两步检测法)实现对《跑男第六季第五期》之如花视频片段(或调用摄像头)进行实时性别、脸部表情识别
- ML之LightGBM:通过数据预处理(分布图热图/特征分箱/标签编码)利用LightGBM实现银行客户是否购买产品二分类预测(交叉训练/AUC曲线可视化/Shap模型可解释)之详细攻略
- Python:python语言中与时间有关的库函数简介、安装、使用方法(获取当前时间/计算程序块前后运行时间/模型训练时间或耗费时间)之详细攻略
- 基于LSTM-RNN的深度学习网络的训练对比matlab仿真
- 基于mnist手写数字数据库的深度学习网络训练和数字识别matlab仿真
- 天天快乐编程2020年OI集训队 训练7题解
- 训练深度学习网络时候,出现Nan是什么原因,怎么才能避免?——我自己是因为data有nan的坏数据,clear下解决
- RCNN网络源码解读(Ⅲ) --- finetune训练过程