浅谈博弈论

美图数据技术团队

发布于 2019-04-19 15:55:39

1.2K0

文章被收录于专栏：美图数据技术团队

感谢阅读「美图数据技术团队」的第 18 篇原创文章，关注我们持续获取美图最新数据技术动态。

生活中我们常常出现的打牌、猜拳、下棋、踢球等行为主题选择策略并相互影响的过程可以称之为博弈，博弈论则是指研究决策主体的行为发生直接相互作用时候的决策，以及这种决策的均衡问题。

博弈论通常用来进行决策、均衡等目的。

值得注意的是，博弈模型只适用于行为主体之间的行动决策会相互影响的情况，若制定决策时不考虑其他行为主体的反应或力量，则博弈模型不成立。

?举个例子

☑️家装市场上装修公司之间的竞争

☑️美国与前苏联的军备竞赛

✖️~~联通招募新员工~~

✖️~~一家电力公司在估计了未来 10 年对电力的需求后决定是否购买一套新的发电机组~~

博弈有 6 大构成要素：参与人 players、行动 actions、信息 information、策略 strategies、收益 payoffs、均衡 equilibria。接下来通过一个试验案例来形象地理解这些要素的定义。

?举个例子

假设每个人都被赐予一个相同的企业，生产相同的产品。你要为你的产品定价，每个人都有两个选择：

选择高价，期望以高价维持利润；
选择低价，以价格优势得到高利润。

*每个人只能选择一种经营方式

可以想象，如果别人选择高价，而你选择低价，你会得到比其他人更高的利润。但如果你们同时选择低价则都只能得到较低的利润。若同时选择高价同时得到较高的利润。

1# 信息

信息指参与人在博弈中的知识，特别是有关其他参与人（对手）的特征和行动的知识。在上面的案例中所有人都知道的有两个信息元素（完全信息），生产方式 1 和生产方式 2 的内容。

信息在博弈中非常重要，最大程度影响着参与人策略的制定，其余因素都是通过信息的方式输入到参与者脑中，并产生决策。

信息主要包括两个方面：对博弈参与人的了解和对博弈过程的了解，其中后者仅限于动态博弈（下文会介绍分类）。根据这两种类型的信息延伸出两种特殊的概念：

完全信息，每个参与人都知道其他所有参与人的特征（收益函数等）；
完美信息，所有参与人都知道博弈树的结构。

2# 策略

策略是博弈参与人选择行动的规则，它决定参与人在什么时候选择什么行动。俗话说的「人不犯我，我不犯人；人若犯我，我必犯人」、「己所不欲，勿施于人」、「以眼还眼，以牙还牙」等都是指导行动的规则，即策略。

3# 参与人

参与人是指做决策的个体。每个参与人的目标都是通过选择行动来最大化自身的效用。

4# 行动

参与人 i 的行动或活动，以

表示所能做的某一个选择，例如在上文的试验中，每个人都可以选择生产方式 1 和生产方式 2 这两种行动。其可以采用的所有行动的集合称为参与人 i 的行动集，表示为：

5# 收益

收益指参与人从博弈中获得的效用水平，它是所有参与人的战略或行动的函数，是每个参与人真正关心的东西。每个人的收益都依赖于所有人的行动选择。

6# 均衡

均衡是所有参与人的最优战略或者行动的组合，也就是博弈过程的解。

均衡是博弈论的核心，它的发展代表了博弈论的发展，均衡的定义与博弈的分类密切相关。

博弈主要有两种表述方式，战略式与扩展式。

战略式又称策略式，一般用于参与人同时行动的静态博弈，二人情况下就是常见的矩阵式表述，如上文企业的高低价案例若两个企业之间价格博弈用矩阵式可表达为：

扩展式针对参与人行动有先后顺序的动态博弈，常见的是博弈树表述（参与人个数不限）。仍然以第一个案例为原型，假设两个企业的产品要通过打折活动促进销量，企业 B 根据企业 A 的打折活动情况决定是否打折，他们之间的博弈树表述如下：

接下来通过博弈的分类深入了解它的概念，如下表所示，根据博弈的行动顺序与信息种类可以将它大致分为四类：

/ 完全信息静态博弈

纳什均衡 /

完全信息静态博弈指每个参与者了解所有对手的特性，且博弈在一个阶段完成。

对于完全信息静态博弈的解一般都是纳什均衡，纳什均衡是由所有参与人的最优战略组成的战略组合。即在给定别人战略的情况下，没有单个人有积极性打破这种选择，从而没有任何人有积极性打破这种均衡。

经典案例有囚徒困境、智猪博弈等。

?囚徒困境

有两位参与人演奏家与 Tom 面临被警官抓捕审讯的场景，他们分别有两种行动策略：坦白与抵赖。根据他们不同的行动策略其收益如下：

两人都坦白—各判刑 8 年；
演奏家坦白， Tom 抵赖—演奏家释放， Tom 被判刑 10 年，反之亦然；
两人都抵赖—各判刑 1 年。

根据以上信息用矩阵式表述如下表：

根据占优策略来看，选择「坦白」对双方各自的收益都是最佳的。所谓占优策略就是不论别人怎么选择，这个策略都会给你带来较好的结果，但显然根据此策略就会陷入囚徒困境的得到（-8，-8）的结果，只有彼此信任合作均衡才能达到两个人都抵赖的最小损失结果（-1，-1）。

在现实生活的商业竞争中经常会遇到囚徒困境，例如垄断企业的价格选择。

?智猪博弈

食槽在一端，开关按钮在另一端。每按一次按钮有 10 个单位猪食进槽，但按钮者需要付 2 个单位成本。一头大猪与一头小猪都有两种行动策略：按按钮与等待。根据他们的不同选择有以下收益：

大猪先到—大猪吃 9 单位，小猪 1 单位；
同时到—大猪吃 7 单位，小猪吃 3 单位；
小猪先到，大猪吃 6 单位，小猪 4 单位。

此博弈的表述如下：

首先从小猪的两种选择收益来看，若小猪选择「按」则它属于绝对劣势，因此排除该选项，接着可以看出最佳策略就是大猪「按」小猪「等待」的小猪先到选项。

智猪博弈通常应用在公共产品的供给、新技术或新产品的研发等现实场景。通俗来讲，正常情况下体量较小的公司不会付出太多成本进行新技术的研发。

?情侣博弈

一对情侣安排周末的活动，两人的爱好不同，男孩喜欢看足球比赛，女孩想去看芭蕾舞。根据不同选择得出收益如下：

两人一起看足球赛—男孩效用 2，女孩 1；
两人一起看芭蕾舞—男孩效用 1，女孩 2；
各自去做自己喜欢的事—效用都是 0。

此博弈的表述如下：

在情侣博弈的对局中，双方都没有占优策略，他们的最优策略依赖于对方的选择。在这个对局中同时出现了两个均衡，这种均衡叫做纳什均衡。

纳什均衡是指在对手的策略是既定的情况下，各个对局者所选择的策略都是最好的。纳什均衡中有两种特殊情况，分别为占优战略均衡与重复剔除的占优均衡。

占优战略均衡

在上文的囚徒困境中提到过，「坦白」对于参与人双方都是占优战略，因此（坦白，坦白）是囚徒困境博弈中的占优战略均衡。

从数学角度来看，定义

为参与人 i 的严格占优战略，

为除了 i 外的参与者的策略选择。如果对所有的

来说

是 i 的严格最优选择，即

如果对所有的 i 来说

是占优战略，那么

这种情况称为占优战略均衡（dominant-strategy equilibrium）。

重复剔除的占优均衡

在无法直接找出占优战略均衡的情况下，我们可以找出某个参与人的劣战略，把这个劣战略剔除，构造一个新的博弈（不包含已剔除的战略）；对新的博弈重复上述过程，直到只剩下唯一的一个战略组合为止，这个唯一剩下的战略组合就是这个博弈的均衡解，称为「重复剔除的占优均衡」。

如上文的智猪博弈案例，它就是通过先排除小猪的绝对劣势选项，进而推断出最终答案。

同样用数学角度来看，令

和

是参与人 i 可选择的两个战略，即

如果对任意的其他参与人的战略组合

，参与人 i 选择

得到的收益严格小于选择

得到的收益，即

则我们说战略

严格劣于战略

。

*如果通过智猪案例无法理解，在后台回复「重复剔除的占优均衡」获得其他案例。

纳什均衡

从占优战略均衡到纳什均衡是层层递进的，因此构成纳什均衡的战略一定是重复剔除严格劣战略过程中不能被剔除的战略。

设有 n 个参与人的战略式表述博弈

，

为一个纳什均衡。如果对于每个 i 来说

是给定其他参与人选择

的情况下的 i 个参与人的最优战略，即

纯纳什均衡可以通过划线法得到，通过以下例子感受一下：

首先假设 A 选定 R1，则 B 在该行选择最优的收益下划线，同理分别选定 R2、R3后假设 B 选定 C1，则 A 在该列选择最优的收益下划线，再同理选定 C2、C3，最终可得出以下矩阵：

最终选择下方有两条线的为最优策略，即表内的（R1,C1）与（R1,C3）。

混合策略纳什均衡

当纯纳什均衡也无法得出时，不妨试试混合策略纳什均衡：给各个策略加上概率！即反应函数方法。

以下列矩阵式为例，假设策略 U 与策略 L 的选择概率为

与

。

当

时为最优策略函数，那么根据参与人 A 与参与人 B 的分别两种假设情况带入可以得出以下函数：

，

，

结合两个函数可得出：

即当

、

时可得到纳什均衡。

据以上多个实例我们可以看出纳什均衡是具有多重性的，为了解决它的不唯一提出了许多均衡概念，如风险上策均衡、焦点均衡、防共谋均衡等（仅指静态博弈）。

/ 不完全信息静态博弈

贝叶斯纳什均衡 /

不完全信息专指博弈中参与人对其他参与人与该博弈有关的事前信息了解不充分，而不是博弈中产生的与局中人实际策略选择有关的信息。

*事前信息指关于在博弈实际开始之前局中人所处地位或者状态的信息，这种地位与状态对于博弈局势会产生影响。

博弈中的不完全信息具有多种形式，如参与人对其他参与人(或自己)所掌握的自然资源、人力资源、商业经验、决策能力的了解不充分，对其他参与人偏好、品位、可用策略的了解不完全，对处于同一种博弈局势的局中人的具体数目了解不完全等。

一个总结：参与人对其他参与人的收益函数的不完全了解。

了解完不完整信息接着看「不完全信息静态博弈」，它主要包含 5 个要素：

参与人集合

；

类型空间

；

概率分布

；

策略集

；

收益函数

。

其中每个参与人都有一个类型空间及其在全体类型空间

上的概率分布、与其他参与人无关的策略集、依赖于策略组合和自认类型

的收益函数，只要满足以上要素就是不完全信息静态博弈（贝叶斯静态博弈），表示为：

当参与人 i 自身的类型为

时，他选择策略

的期望收益为：

在不完全信息静态博弈中，若

是一个策略组合，且对每一个

和

都有：

则称策略组合

是一个贝叶斯纳什均衡。

?酒商与顾客的博弈

一商人到某城镇去卖酒，该商人可能是诚实的，卖好酒；也可能是不诚实的，卖假酒，酒商有加强宣传卖高价和只卖低价两个策略。而该城镇中的消费者也有两类，有饮酒嗜好和无此嗜好的，他们有买酒和不买酒两个策略。

商人不知道来买酒的消费者是否嗜酒，而消费者也不知道商人是否诚实。

此博弈的收益表述如下：

显然商人的类型有两种

，其中前者为诚实，后者为不诚实；消费者类型也有两种

，其中前者为嗜酒，后者为不嗜酒。并记商人的策略集为

，其中前者为高价卖酒，后者为低价卖酒；消费者的策略集为

，其中前者为买酒，后者为不买酒。

根据该城镇历年来的记载有如下的情况：

嗜酒者遇到诚实商人的概率为 0.2，

；

嗜酒者遇到不诚实商人的概率为 0.4，

；

不嗜酒者遇到诚实商人的概率为 0.1，

；

不嗜酒者遇到不诚实商人的概率为 0.3，

。

根据贝叶斯法则可得出：

设酒商在类型为

时混合策略为

,类型为

时混合策略为

；消费者在类型为

时的混合策略为

，类型为

时的混合策略为

。

根据收益表可得酒商在类型为

时两种收益矩阵为：

根据上文所述公式可得出期望收益为：

并且需要满足以下条件：

通过以上不等式可得出：

同理我们得出其它三种情况的不等式组分别为：

最后对这四个不等式组进行联合求解即可得出贝叶斯纳什均衡。其中引入依赖于策略组合和自认类型

的收益函数的方法被称为海萨尼转换。即在风险条件下，参与人 B 虽然不知道参与人 A 的类型，但可以知道不同类型的分布概率，将不确定性条件下的选择转换为风险条件下的选择称为海萨尼转换。

/ 动态博弈 /

参与人的行动有先后顺序，而且行动在后者可以观察到行动在先者的选择，并据此作出相应的选择的博弈称为动态博弈，也叫「多阶段博弈」。

动态博弈的困难在于，在前一刻最优的决策在下一刻可能不再为最优，因此在求解上发生很大的困难，下棋就是经典的动态博弈案例。

动态博弈根据信息是否完整分为完全信息动态博弈与不完全信息动态博弈。

完全信息动态博弈往往通过逆向归纳法求解得出子博弈精炼纳什均衡，逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始，逐步向前倒推以求解动态博弈均衡的方法。对于扩展式博弈的策略组合，如果它是原博弈的纳什均衡，并且在每一个子博弈上也都构成纳什均衡，则它是一个子博弈精炼纳什均衡。

不完全信息动态博弈得出的解称为精炼贝叶斯均衡，它是完全信息动态博弈的精炼纳什均衡与不完全信息静态博弈的贝叶斯均衡的结合体。精炼贝叶斯均衡的要点在于参与人要根据所观察到的其他参与人的行为来修正自己有关后者的「信念」，即主观概率，并由此选择自己的行动策略。修正过程中使用的是贝叶斯规则，即每个参与人都假定其他参与人选择的是均衡战略。

篇幅有限，对动态博弈的内容就不再扩展，欢迎持续关注「美图数据技术团队」，后续将呈现更多精彩干货。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-09-17，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习