腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

绿巨人专栏

专栏作者

129

文章

157417

阅读量

44

订阅数

读书笔记: 博弈论导论 - 18 - 不完整信息的动态博弈信息传递和廉价谈判

读书笔记: 博弈论导论 - 18 - 不完整信息的动态博弈信息传递和廉价谈判信息传递和廉价谈判(Information Transmission and Cheap Talk) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。这里讨论的问题是：玩家1是信息提供者，玩家2是决策者。玩家1和玩家2的收益函数有一个偏差。着导致玩家1并不一定会提供真实的信息。而玩家2则需要根据玩家1的类型来做出决策。三个结论：不存在完全诚实的均

2018-05-18

1.2K0

读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈建立信誉

读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈建立信誉建立信誉(Building a Reputation) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。为什么我们要建立良好的信誉？为什么我们更愿意和有信誉的人交往？本章从囚徒困境这个问题，证明了即使在2阶段的囚徒困境中，如果一方有可能选择合作（也就是沉默），另一个方在第一阶段也有可能选择合作。让我们回忆一下囚徒困境。囚徒困境的均衡是双方都告密。在有限多阶

2018-05-18

7650

读书笔记: 博弈论导论 - 16 - 不完整信息的动态博弈信号传递博弈

读书笔记: 博弈论导论 - 16 - 不完整信息的动态博弈信号传递博弈信号传递博弈(Signaling Games) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。信号传递博弈的核心在于玩家2如何判断玩家1的类型。可以想象玩家2是一个面试官，试图挑选一个有经验的Java工程师。而玩家1是被面试者。玩家1有两种类型：类型1是有三年Java工作经验的，类型2是有三年JavaScript工作经验的。信号传递博弈的两种类别混同均衡

2018-05-18

2.4K0

读书笔记: 博弈论导论 - 15 - 不完整信息的动态博弈序贯理性

读书笔记: 博弈论导论 - 15 - 不完整信息的动态博弈序贯理性在不完整信息中的序贯理性(Sequential Rationality with Incomplete Information) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。子博弈精炼(subgame perfection) 序贯理性就是要求玩家总是选择最佳反应。子博弈精炼是要求玩家在每个信息集上总是选择最佳反应。在均衡路径上(on the equilibriu

2018-05-18

1.4K0

读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈机制设计

读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈机制设计机制设计(Mechanism Design) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。机制设计的概念机制设计的目标是设计一个可以达到期望收益的博弈。由于这是根据博弈结果来推导博弈的形式，也被称为反向博弈论(reverse game theory)。这个理论明显在经济和政治方面有很多用途。我们假象这样一个例子：某个政府需要设计一个关于化工厂的环保政

2018-05-18

1.3K0

读书笔记: 博弈论导论 - 13 - 不完整信息的静态博弈拍卖和竞标

读书笔记: 博弈论导论 - 13 - 不完整信息的静态博弈拍卖和竞标拍卖和竞标(Auctions and Competitive Bidding) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。拍卖的类型公开拍卖(open auctions) 英式拍卖(The English Auctions) 从一个底价开始喊价，出价高者获得物品。荷兰式拍卖(The Dutch Auctions) 价格从一个高价开始，慢慢下降，第一个喊“买

2018-05-18

1.2K0

读书笔记: 博弈论导论 - 11 - 完整信息的动态博弈战略协议

读书笔记: 博弈论导论 - 11 - 完整信息的动态博弈战略协议战略协议(Strategic Bargaining) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。协议是多方对一个剩余(surplus)，通过提议，尝试达成一致意见。一个两人协议博弈的过程：第一回合玩家1提出分配(x, 1-x)，玩家1得到x，玩家2得到1-x。如果玩家2表示接受，博弈结束， = x, = 1-x。如果玩家2反对，进入下一轮第二回合

2018-05-18

7910

读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈重复的博弈

读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈重复的博弈重复的博弈(Repeated Games) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。有限地重复的博弈有限地重复的博弈(Finitely Repeated Games) 给定一个阶段博弈G，一个有限地重复的博弈被记做G(T, )，其中阶段博弈G被连续进行了T次，是公共折扣因子。推论 10.1 如果有限重复博弈的阶段博弈有一个唯一的纳什博弈，则这个

2018-05-18

1.3K0

读书笔记: 博弈论导论 - 09 - 完整信息的动态博弈多阶段博弈

读书笔记: 博弈论导论 - 09 - 完整信息的动态博弈多阶段博弈多阶段博弈(Multistage Games) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。多阶段博弈多阶段博弈多阶段博弈是一个有限个数的普通形式阶段博弈(stage-game)的队列。每个阶段博弈(stage-game)是一个独立的、非完美信息的完整博弈。这些阶段博弈的玩家都相同。每个博弈都属于一段截然不同的时期(distinct period)。多阶段

2018-05-18

1.9K0

读书笔记: 博弈论导论 - 08 - 完整信息的动态博弈可信性和序贯理性

读书笔记: 博弈论导论 - 08 - 完整信息的动态博弈可信性和序贯理性可信性和序贯理性(Credibility and Sequential Rationality) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。序贯理性和逆向归纳法(Sequential Rationality and Backward Induction) 序贯理性(Sequential Rationality) 序贯理性是一个原则：在博弈树的每一个信息集上，

2018-05-18

1.6K0

读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈预备知识

读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈预备知识完整信息的动态博弈预备知识本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。动态博弈(Dynamic Games) 静态博弈是每个玩家同时(并且在不知道其他玩家选择的情况下)做出选择。动态博弈引进了玩家做出选择的先后次序。注意：玩家i做出了选择后，玩家j知道玩家i做出了选择，但是不一定知道玩家i做出了什么选择。扩展形式博弈(The Extensive-Form

2018-05-18

1.1K0

读书笔记: 博弈论导论 - 06 - 完整信息的静态博弈混合的策略

读书笔记: 博弈论导论 - 06 - 完整信息的静态博弈混合的策略混合的策略本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。策略，信念和期望收益混合策略玩家i的有限纯策略集合将定义为的单纯形，是在上所有概率分布的集合。玩家i的一个混合策略(mixed strategy)是两个明显的条件: image.png 玩家i选择混合策略，并且对手选择混合策略，的期望收益:

2018-05-18

1.5K0

读书笔记: 博弈论导论 - 05 - 完整信息的静态博弈纳什均衡

读书笔记: 博弈论导论 - 05 - 完整信息的静态博弈纳什均衡压制信念：纳什均衡(Pinning Down Beliefs: Nash Equilibrium) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。纳什均衡纳什均衡一个纯策略组合是一个纳什均衡，如果对于其中的每个策略，都是的最佳响应。推理 5.1：一个策略组合，如何满足下面的条件之一：是一个严格的优势策略均衡是唯一的IESD

2018-05-18

1.1K0

读书笔记: 博弈论导论 - 04 - 完整信息的静态博弈理性和公共知识

读书笔记: 博弈论导论 - 04 - 完整信息的静态博弈理性和公共知识理性和公共知识本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。纯策略中的优势(dominance) 数学表达: 除了玩家i以外所有玩家的策略集合 : 所有人的所有策略组合。 : 除了玩家以外，所有人的所有策略组合。 : 所有人的一种策略组合。 : 除了玩家以外，所有人的一种策略组合。引进和是为了通过看玩家i以外的

2018-05-18

1.6K0

读书笔记: 博弈论导论 - 03 - 完整信息的静态博弈预备知识

读书笔记: 博弈论导论 - 03 - 完整信息的静态博弈预备知识预备知识本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。知识点静态完全信息博弈(static games of complete information) 第一步：每个玩家同时并且独立的选择一个行动，（每个玩家都不知道别人的选择情况）第二步：根据所有玩家选择的行动，收益被分布到每个玩家。完全信息博弈(Games of Complete Information)

2018-05-18

6220

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间

强化学习机器学习

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间前言本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。术语概率分布函数(probability distribution function) 一个简单投机(lottery)(行动）在结果上的概率分布记做累积分布函数(cumulative distribution function) 一个简单投机(lottery)行动，在结果区间上的累积分布函数：

2018-05-18

9610

读书笔记: 博弈论导论 - 01 - 单人决策问题

读书笔记: 博弈论导论 - 01 - 单人决策问题前言本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。博弈论语言这章的一个目的是开发一种用于决策的语言。决策问题的三要素行动(action): 玩家可能的选择结果(outcome): 每个行动的可能后果倾向(preference): 对所有可能后果，按照从最渴望到最不渴望的排列。术语倾向关系(preference relation) 描述了玩家的倾向，意味着“x至少和y

2018-05-18

6560

蒙特卡洛树搜索算法（UCT）: 一个程序猿进化的故事

机器学习编程算法

前言：本文是根据的文章Introduction to Monte Carlo Tree Search by Jeff Bradberry所写。 Jeff Bradberry还提供了一整套的例子，用python写的。 board game server board game client Tic Tac Toe board AI implementation of Tic Tac Toe 阿袁工作的第一天 - 蒙特卡罗树搜索算法 - 游戏的通用接口board 和 player 阿袁看到阿静最近在学

2018-05-18

2.5K0

神经网络学习笔记-01-基本概念

神经网络机器学习

神经网络学习笔记-01-基本概念基本概念 Artificial Neural Network - 基于神经元的计算方向。一个人工神经网络系统一般包含多个层，每层包含多个神经元（也称为节点）。第一层是输入层。基本上没有什么计算功能，主要是将输入数据映射到每个节点上。中间的层次为隐藏层。每层都会有一个输出，包含了本层每个节点的输出数据。每层的输出数据，也是下一层的输入数据。每层的每个节点会对输入数据分别计算,产生不同的计算结果。最后一层是输出层。输出层的每个节点对应一个分类，计算

2018-05-18

4720

神经网络学习笔记 - 损失函数的定义和微分证明

神经网络机器学习

神经网络学习笔记 - 损失函数的定义和微分证明损失函数 Loss function (cross entropy loss) 损失函数，反向传播和梯度计算构成了循环神经网络的训练过程。激活函数softmax和损失函数会一起使用。激活函数会根据输入的参数（一个矢量，表示每个分类的可能性），计算每个分类的概率(0, 1)。损失函数根据softmax的计算结果\(\hat{y}\)和期望结果\(y\)，根据交叉熵方法(cross entropy loss) 可得到损失\(L\)。 cross entr

2018-05-17

1.6K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态