您现在的位置是：首页 > 硬件

当前栏目

Open AI如何用“自我对局”训练AI机器人变身“摔角王”？

机器人训练 AI 如何 open 自我

2023-09-27 14:27:57 时间

OpenAI 于近日的一项研究中发现，在一个非明确的技能训练的环境中，AI 能够通过“自我对局”的训练掌握一系列动作技能，比如进攻、躲避、假动作、踢、抓等等。“自我对局”训练确定了环境对于提升AI系统的重要性。Dota2在“自我对局”训练中的表现和结果让团队越来越相信，“自我对局”训练不久将会成为AI系统的核心。雷锋网AI科技评论对本文进行编译，全文如下：

论文原文：https://arxiv.org/abs/1710.03748

代码：https://github.com/openai/multiagent-competition

我们在几个3D机器人之间设置了一些基本的游戏竞赛，利用一些简单的目标（比如：将对手推到场地圈外；到达场地的另一边，并阻止对手到达；把球踢进对手的网内，而不让对手的球踢进自己的网内等。）对每个机器人进行训练，并且分析机器人在完成目标时所使用的技能和策略。

一开始，机器人会因为站立、前进这样的行为而获得丰厚的奖励，但最后这些奖励会被清零，只有胜利的机器人才会获得奖励。除了这些简单的奖励以外，机器人还会学到一系列动作技能，比如进攻、躲避、假动作、踢、抓等等。在这个过程中，每个机器人的神经网络都单独接受了“近端策略优化” 的训练。

为了弄清楚在这些目标和竞赛的压力面前，机器人会作出如何复杂的行动，我们不妨分析一下机器人的“摔角相扑”比赛吧。在这个比赛中，为了训练机器人行走，我们在比赛前期给机器人设置了丰厚的奖励；增加了从这个圆形场地中心起的负L2距离，并且将其设置为机器人获得的丰厚奖励。机器人一开始的时候可以使用这些奖励在比赛场地内作出一些动作和反应，但是我们会在训练中把奖励悄悄地清零。这样一来，在接下来的训练迭代中，机器人才会为了得到更多的奖励，自觉地对自己的动作和技能进行优化。

设计出有助于这些技能训练的任务和环境并非不可能，但这不仅需要研究员耗费大量的精力，还需要他们具备独到的创意。此外，机器人的行为也可能会因为人类设计师在设计中出现的问题而变得更复杂。通过成千上万次的迭代优化，我们能够开发出更好的机器人，进而可以创造出功能强大的AI系统，该系统能够自我引导，并完成性能自我优化。在Dota2项目中我们也能发现类似的自我优化现象。在Dota2项目中，“自我对局”训练让我们成功创造出了一个能够在电子竞技的solo版本中击败顶级人类玩家的强化学习机器人。

刚刚完成“摔角相扑”训练的机器人，现在又要开始应对“强风”了。

这些机器人还能进行“迁移学习”，它们能够把在一场景学习到的技能运用于另一个从未接触过的场景。在一个案例中，我们给那些经过了“摔角相扑”训练的机器人设置了一个任务，让它们在强风中始终保持站立。结果是，那些无视这个强风环境的机器人能够始终保持直立，而接受过传统强化学习训练的机器人在尝试行走时则会立刻摔倒。

过拟合

我们的机器人会与“co-learning策略”发生过拟合，该策略是针对某些特定的对手而设计的，但是在面对新的对手时，这个策略就会失效。针对这一问题，我们的解决方案是——让机器人与多个不同的对手进行“较量”。这些对手来自于一系列的策略，其中有同步训练或早期训练的策略。面对这些各式各样、风格不一的对手，机器人就必须学习更多通用的策略和技术，这样才能“来者不惧”。

本文作者：图普科技本文转自雷锋网禁止二次转载，原文链接
云边协同与人工智能AI的深度融合（云端训练、边端推理）在面向物联网、大流量等场景下，为了满足更广连接、更低时延、更好控制等需求，云计算在向一种更加全局化的分布式节点组合形态进阶，边缘计算是其向边缘侧分布式拓展的新触角。
AI训练性能提升30%，阿里云发布GPU计算裸金属实例ebmgn7ex ChatGPT、AIGC（人工智能生成内容）等技术潮流快速兴起，让普通人也感受到了人工智能技术应用落地对用户体验带来的巨大改变。应用的快速落地，离不开背后基础设施的支撑。人工智能模型的训练场景，往往要求高算力、高吞吐、低延时，可以大大加快训练速度，加速模型迭代。
基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能 2023年3月23日14：00（中国时间），NVIDIA GTC开发者大会阿里云开发者社区观看入口正式开放，阿里云高级技术专家林立翔带来了题为《基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能》的分享。
机器学习平台PAI简测：PAI提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务机器学习平台PAI（Platform of Artificial Intelligence）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。
回到未来！用童年日记训练AI，这个程序员借助GPT-3实现了与“过去的自己”的对话人们对过去和未来总是情有独钟。在电影《回到未来》中，身在1985年的主角被意外送回到1955年，不仅巧遇了过去的父母，还让年轻的母亲对自己一见钟情，从而闹出了不少笑话。

猜你喜欢

快速幂
Restful Api调用工具类
时代更替中的方正
免费开源的diff软件“meld”-替代beyond compare的神器
manjaro kde 我安装后使用到的命令
ABP理论学习之OWIN集成
Elasticsearch Bucket & Metric 聚合分析及嵌套聚合
面试突击（六）——JVM如何实现JAVA代码一次编写到处运行的？
python多进程管道通信（精）
RHEL/CentOS网络相关的配置文件路径
上产使用MQ的三点注意

相关主题

机器人教程
机器人
机器人视觉3
钉钉机器人
机器人的运动范围
机器人的运动范围_66
2023.10 聊天机器人
2021.44 工业机器人之父
机器人路径规划 - 1
du熊的机器人

zl程序教程

当前栏目

Open AI如何用“自我对局”训练AI机器人变身“摔角王”？

相关文章