博弈论(Game Theory) - 01 - 前传之占优战略均衡

博弈论(Game Theory) - 01 - 前传之占优战略均衡

开始

我们现在准备攀爬博弈论的几座高峰。 我们先看看在纳什均衡产生之前,博弈论的发展情况。 我们的第一座高峰是占优战略均衡。

囚徒困境(prisoner's dilemma)和占优战略均衡

囚徒困境

经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持抵赖,此人将即时获释,沉默者将判监10年。 若二人都保持抵赖(相关术语称互相“合作”),则二人同样判监1年。 若二人都互相坦白(相关术语称互相“背叛”),则二人同样判监8年。 如果你是其中一个囚徒,你该怎么办?

第一步: 表述问题

博弈论表述问题的方式有:

  • 博弈的“战略式”表述(strategic form representation)(也称为标准式表述(normal form representation)) “战略式”表述是使用一个支付矩阵来表述。
  • 博弈的“扩展式”表述(extensive form representation) “扩展式”表述是使用一个博弈树来表述。

这里,我们使用“战略式”表述,其支付矩阵如下:

坦白

抵赖

坦白

-8,-8

0,-10

抵赖

-10,0

-1,-1

这个表中的数字,第一个是甲的支付结果,第二个是乙的支付结果。 比如:右上角的单元中,表示:在甲选择坦白,乙选择抵赖时,甲被释放,而乙获刑10年。

第二步:选择占优战略

首先,我们假设每个人都是理性人。 甲会如何考虑呢? 甲会先不考虑自己做出什么选择。他会先假设乙的选择是什么? 如果乙选择坦白,则甲选坦白,获刑8年;或者选择抵赖,获刑10年。这种情况下,甲选择坦白占优。 如果乙选择抵赖,则甲选坦白,获刑0年;或者选择抵赖,获刑1年。这种情况下,甲选择坦白占优。 因此,对于甲来说,选择坦白就是一个占优选择。

第三步:均衡

当然,坦白也是乙的占优战略。 这种场景下,甲和乙都选择了最优战略,不会再改变自己的战略,达到了均衡。

概念

  • 博弈论 要理解博弈论,可以通过博弈论和决策论的区别开始。 决策论是研究局中人在给定其他环境参数条件下的最优选择问题。 博弈论研究的是当局中人充分考虑到其他局中人对其战略选择的反应后(即局中人都具有同样充分的理性时)进行最优战略的选择。
  • Player \Gamma是玩家构成的集合。\Gamma = (1, 2, \dots, n)。 i是一个特定的玩家, \ i = 1, 2, \cdots, n, \ i \in \Gamma
  • 战略空间(strategy space) 一个战略告诉玩家在什么时候选择什么行动。 S_i: 第i个玩家的战略空间。 s_i: 第i个玩家的战略空间的一个元素。s_i \in S_i, \ i \in \Gamma要注意:场景的不同s_i的含义也有区别。有时s_i代表\forall s_i \in S_i;有时s_i代表一个特定选择。 s_{-i}: 除第i个局中人所选择战略s_i之外的其他所有局中人所选择的战略组合向量
  • 信息 指玩家在博弈中拥有的相关知识,特别是有关其他玩家的特征和行动的知识。
  • 支付函数 和 结果 u_i: 第i个玩家的支付函数。 u_i = u_i(s_1, \cdots, s_i, \cdots, s_n), \ i \in \Gamma。 玩家的支付不仅是该玩家自己所选战略的函数,而且还是所有其他玩家选择的战略的函数,这正是博弈论所强调的互动效应的数学描述。
  • 均衡 所有玩家都选择的最优战略或行动的组合。 G: 博弈。 G = {S_1, \cdots, S_n; u_1, \cdots, u_n}, 博弈的“战略式表述”(strategic form representation),玩家战略空间和支付函数的集合。

定义

  • 有限博弈(finite game) 当局中人的个数n为有限数且每个局中人的战略空间中的元素只有限个时,称博弈为有限博弈(finite game)。

参考

  • 博弈论与经济模型, 蒲勇健。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏龙行天下CSIEM

科学瞎想系列之五十八 电机设计宝典(小学版)

在幼儿园,老师给宝宝们讲了比照葫芦画瓢的设计方法,有的宝宝还嫌不够基础,要老师讲一期胎教版,更有甚者让老师弄个受精卵版,这可难坏了老师,老师俺是一大老爷们,木...

37460
来自专栏DT数据侠

张翰娜扎为何分手?这个“科学配对实验”已洞穿一切

连张翰娜扎这种外形登对的高颜值组合都宣告分手,圣诞节独守空房的你有什么资格老泪纵横。在这个什么都讲究精准配对的时代,遇不到真爱可能真的是概率问题。

8600
来自专栏大数据挖掘DT机器学习

【实例】R语言如何做银行财务数据分析?

搜集银行业上市公司的财务数据分析股票价格的财务影响因素,观测流动比率、净资产负债比率、资产固定资产比率、每股收益、净利润、增长率、股价和公布时间等数据。首...

97580
来自专栏AzMark

3天破9亿!上万条评论解读《西虹市首富》是否值得一看

作者介绍:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据

17630
来自专栏人工智能快报

人工智能力助肾脏诊断

科研人员利用超级计算机和人工智能技术对肾脏受损程度和寿命进行了预测。 现在,科研人员已经能够通过基于人工智能(AI)的超级计算机模型,借助患者前往医院进行肾脏活...

39580
来自专栏悦思悦读

用一个高考数据的例子,说明数据的误导

又是一年高考 高考成绩刚出,正在紧张的志愿填报阶段。朋友圈里每天被高考刷屏。消息大部分可归为两类:i) 推荐学校,和ii)感叹阶级固化“寒门再难出贵子”。 后一...

33080
来自专栏思影科技

AJP事件相关电位研究:减弱的奖赏神经反应可以前瞻性预测 青春期少女抑郁症的发展

来自纽约Stony Brook大学心理学、精神病学和行为学部门的Brady D. Nelson等人发现奖赏正波的降低可以预测十八个月之后抑郁症的首发情况和抑郁症...

29650
来自专栏进击的程序猿

cs224d-第二课-word2vec

首先我想说下为什么会去学习cs224d,原先我一直是做工程的,做了大概3年,产品做了好多,但是大多不幸夭折了,上线没多久就下线,最后实在是经受不住心灵的折磨,转...

18510
来自专栏思影科技

急性睡眠剥夺和慢性睡眠限制后个体调制睡眠稳态的压力增长

瑞士苏黎世大学的MaricAngelina、Huber Reto等人在Sleep杂志上发表了一项研究,用来解释急性睡眠剥夺、慢性睡眠限制对大脑的神经活动的影响及...

39870
来自专栏龙行天下CSIEM

科学瞎想系列之六十六 电机定转子极数不同转矩会怎样

搞电机的宝宝们都知道,电机要想实现稳定的机电能量转换,必须满足两个条件,一是定转子极数相等;二是定转子的磁场还要相对静止。这是无数电机界老前辈在他们的书里...

31740

扫码关注云+社区

领取腾讯云代金券