zl程序教程

您现在的位置是:首页 >  其他

当前栏目

第七章 人工智能博弈

2023-04-18 14:24:01 时间

博弈行为:带有互相竞争性质的主体,为了达到各自目标和利益,采取的带有对抗性质的行为。

参与者:参与博弈的决策主体。

策略:参与者可以采取的行动方案,是一整套在爱去行动之前就已经准备好的完整方案。

  • 某个参与者可采纳策略的全体集合形成策略集;
  • 所有参与者各自采取行动后形成的状态被称为局势;
  • 如果参与者可以通过一定概率分布来选择若干个不同的策略,这样的策略称为混合策略。弱参与者每次行动都选择某个确定的策略,这样的策略称为纯策略;

收益:各个参与者在不同局势下得到的利益(混合策略下的收益为期望收益)

规则:对参与者行动的先后排序、参与者获得信息多少等内容的规定。

博弈的分类

合作博弈:部分参与者可以组成联盟以获得更大收益。

非合作博弈:参与者在决策中都彼此独立,不是先达成合作意向。

静态博弈:所有参与者同时决策,或参与者互相不知道对方的决策。

动态博弈:参与者所采取行为的先后顺序由规则决定,且后行动者知道先行动者所采取的行为。

完全信息博弈:所有参与者均了解其他参与者的策略集、收益等信息。

不完全信息博弈:并非所有参与者均掌握了所有信息。

nash定理:若参与者有限,每位参与者的策略集有限,收益函数为实值函数,则博弈比存在混合策略意义下的nash均衡。

遗憾最小化算法

策略选择:

虚拟遗憾最小化算法