您现在的位置是：首页 > 其他

当前栏目

颤抖吧人类！阿尔法狗之后又有了冷扑大师

2023-03-31 11:09:32 时间

恐怕大家都是从阿尔法狗击败李世乭这条热文，才开始关注AI的吧，然而现在不光有了阿尔法狗，还出了一个冷扑大师，专攻德扑的一款AI机器人。

首先先来了解下德州扑克与棋类的区别。围棋是一种“完美信息游戏”，场面上所有的情况都黑白分明地摆在棋面上，双方掌握对等的信息。然而，德扑中隐藏了很多信息，是一种“非完美信息游戏”。玩家不知道对手手中是什么牌，不知道五张公共牌会开出怎样的结果，也不知道对手猜测自己握有怎样的手牌。因此，虽然一盘德扑的决策点数量是10的160次方，要少于围棋，但光靠搜索是打不了德扑的。德扑由此跳出了在搜索量上的较量，对AI提出了另一个方向上的考验：应对隐藏的信息。

阿尔法狗的几个基本原理，分别为：走棋网络（Policy Network），给定当前局面，预测和采样下一步的走棋；快速走子（Fast rollout），在适当牺牲走棋质量的条件下提高速度；价值网络（Value Network），给定当前局面，估计双方胜率；蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS)，把以上三个部分串联成一个完整的系统。

冷扑大师的算法则主要基于：纳什均衡、虚拟遗憾最小化算法（Counterfactual Regret Minimization,CFR）、残局解算器（end-game solver）和自我强化学习等模块。

然而对于用户来说，阿尔法狗和冷扑大师除了能让我们看看新闻以外，哪个又更有用呢？

在现实生活中，我们遇到的事情会更像玩德扑：商业谈判时对方未知的底牌、房屋拍卖时竞争对手难测的举动、股票交易中一些隐藏的内部消息。桑德霍姆认为，德扑AI打开了靠人工智能解决随机事件和隐藏信息的大门。这样的AI，才有望离开虚拟的棋牌世界，成为人类在现实生活中谈判、博弈和投资的好帮手。

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

颤抖吧人类！阿尔法狗之后又有了冷扑大师

相关文章