腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
绿巨人专栏
专栏作者
举报
129
文章
157417
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章
其他
机器学习
编程算法
强化学习
java
scala
神经网络
typescript
node.js
json
数据库
spark
go
打包
http
游戏
markdown
NLP 服务
c++
python
javascript
linux
缓存
npm
windows
rust
官方文档
ios
iphone
.net
react
css
sql
access
ide
git
api
centos
apache
容器镜像服务
访问管理
云推荐引擎
人工智能
开源
面向对象编程
监督学习
决策树
tcp/ip
数据分析
wpf
addition
element
excel
flags
hide
identity
include
kill
locking
multiplication
mysql
ocr
response
select
set
theory
thread
worksheet
连接
事务
源码
搜索文章
搜索
搜索
关闭
读书笔记: 博弈论导论 - 18 - 不完整信息的动态博弈 信息传递和廉价谈判
机器学习
读书笔记: 博弈论导论 - 18 - 不完整信息的动态博弈 信息传递和廉价谈判 信息传递和廉价谈判(Information Transmission and Cheap Talk) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 这里讨论的问题是:玩家1是信息提供者,玩家2是决策者。 玩家1和玩家2的收益函数有一个偏差。着导致玩家1并不一定会提供真实的信息。 而玩家2则需要根据玩家1的类型来做出决策。 三个结论: 不存在完全诚实的均
绿巨人
2018-05-18
1.2K
0
读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈 建立信誉
机器学习
读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈 建立信誉 建立信誉(Building a Reputation) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 为什么我们要建立良好的信誉?为什么我们更愿意和有信誉的人交往? 本章从囚徒困境这个问题,证明了即使在2阶段的囚徒困境中,如果一方有可能选择合作(也就是沉默),另一个方在第一阶段也有可能选择合作。 让我们回忆一下囚徒困境。 囚徒困境的均衡是双方都告密。 在有限多阶
绿巨人
2018-05-18
765
0
读书笔记: 博弈论导论 - 16 - 不完整信息的动态博弈 信号传递博弈
机器学习
读书笔记: 博弈论导论 - 16 - 不完整信息的动态博弈 信号传递博弈 信号传递博弈(Signaling Games) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 信号传递博弈的核心在于玩家2如何判断玩家1的类型。 可以想象玩家2是一个面试官,试图挑选一个有经验的Java工程师。而玩家1是被面试者。 玩家1有两种类型:类型1是有三年Java工作经验的,类型2是有三年JavaScript工作经验的。 信号传递博弈的两种类别 混同均衡
绿巨人
2018-05-18
2.4K
0
读书笔记: 博弈论导论 - 15 - 不完整信息的动态博弈 序贯理性
机器学习
读书笔记: 博弈论导论 - 15 - 不完整信息的动态博弈 序贯理性 在不完整信息中的序贯理性(Sequential Rationality with Incomplete Information) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 子博弈精炼(subgame perfection) 序贯理性就是要求玩家总是选择最佳反应。 子博弈精炼是要求玩家在每个信息集上总是选择最佳反应。 在均衡路径上(on the equilibriu
绿巨人
2018-05-18
1.4K
0
读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈 机制设计
机器学习
读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈 机制设计 机制设计(Mechanism Design) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 机制设计的概念 机制设计的目标是设计一个可以达到期望收益的博弈。 由于这是根据博弈结果来推导博弈的形式,也被称为反向博弈论(reverse game theory)。 这个理论明显在经济和政治方面有很多用途。 我们假象这样一个例子: 某个政府需要设计一个关于化工厂的环保政
绿巨人
2018-05-18
1.3K
0
读书笔记: 博弈论导论 - 13 - 不完整信息的静态博弈 拍卖和竞标
机器学习
读书笔记: 博弈论导论 - 13 - 不完整信息的静态博弈 拍卖和竞标 拍卖和竞标(Auctions and Competitive Bidding) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 拍卖的类型 公开拍卖(open auctions) 英式拍卖(The English Auctions) 从一个底价开始喊价,出价高者获得物品。 荷兰式拍卖(The Dutch Auctions) 价格从一个高价开始,慢慢下降,第一个喊“买
绿巨人
2018-05-18
1.2K
0
读书笔记: 博弈论导论 - 11 - 完整信息的动态博弈 战略协议
机器学习
读书笔记: 博弈论导论 - 11 - 完整信息的动态博弈 战略协议 战略协议(Strategic Bargaining) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 协议是多方对一个剩余(surplus),通过提议,尝试达成一致意见。 一个两人协议博弈的过程: 第一回合 玩家1提出分配(x, 1-x),玩家1得到x,玩家2得到1-x。 如果玩家2表示接受,博弈结束, = x, = 1-x。如果玩家2反对,进入下一轮 第二回合
绿巨人
2018-05-18
791
0
读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈 重复的博弈
机器学习
读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈 重复的博弈 重复的博弈(Repeated Games) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 有限地重复的博弈 有限地重复的博弈(Finitely Repeated Games) 给定一个阶段博弈G,一个有限地重复的博弈被记做G(T, ),其中阶段博弈G被连续进行了T次, 是公共折扣因子。 推论 10.1 如果有限重复博弈的阶段博弈有一个唯一的纳什博弈, 则这个
绿巨人
2018-05-18
1.3K
0
读书笔记: 博弈论导论 - 09 - 完整信息的动态博弈 多阶段博弈
机器学习
读书笔记: 博弈论导论 - 09 - 完整信息的动态博弈 多阶段博弈 多阶段博弈(Multistage Games) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 多阶段博弈 多阶段博弈 多阶段博弈是一个有限个数的普通形式阶段博弈(stage-game)的队列。每个阶段博弈(stage-game)是一个独立的、非完美信息的完整博弈。 这些阶段博弈的玩家都相同。每个博弈都属于一段截然不同的时期(distinct period)。 多阶段
绿巨人
2018-05-18
1.9K
0
读书笔记: 博弈论导论 - 08 - 完整信息的动态博弈 可信性和序贯理性
机器学习
读书笔记: 博弈论导论 - 08 - 完整信息的动态博弈 可信性和序贯理性 可信性和序贯理性(Credibility and Sequential Rationality) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 序贯理性和逆向归纳法(Sequential Rationality and Backward Induction) 序贯理性(Sequential Rationality) 序贯理性是一个原则:在博弈树的每一个信息集上,
绿巨人
2018-05-18
1.6K
0
读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识
机器学习
读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识 完整信息的动态博弈 预备知识 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 动态博弈(Dynamic Games) 静态博弈是每个玩家同时(并且在不知道其他玩家选择的情况下)做出选择。 动态博弈引进了玩家做出选择的先后次序。 注意:玩家i做出了选择后,玩家j知道玩家i做出了选择,但是不一定知道玩家i做出了什么选择。 扩展形式博弈(The Extensive-Form
绿巨人
2018-05-18
1.1K
0
读书笔记: 博弈论导论 - 06 - 完整信息的静态博弈 混合的策略
机器学习
读书笔记: 博弈论导论 - 06 - 完整信息的静态博弈 混合的策略 混合的策略 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 策略,信念和期望收益 混合策略 玩家i的有限纯策略集合 将 定义为 的单纯形,是在 上所有概率分布的集合。 玩家i的一个混合策略(mixed strategy)是 两个明显的条件: image.png 玩家i选择混合策略 ,并且对手选择混合策略 ,的期望收益:
绿巨人
2018-05-18
1.5K
0
读书笔记: 博弈论导论 - 05 - 完整信息的静态博弈 纳什均衡
机器学习
读书笔记: 博弈论导论 - 05 - 完整信息的静态博弈 纳什均衡 压制信念:纳什均衡(Pinning Down Beliefs: Nash Equilibrium) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 纳什均衡 纳什均衡 一个纯策略组合 是一个纳什均衡,如果对于其中的每个策略, 都是 的最佳响应。 推理 5.1: 一个策略组合 ,如何 满足下面的条件之一: 是一个严格的优势策略均衡 是唯一的IESD
绿巨人
2018-05-18
1.1K
0
读书笔记: 博弈论导论 - 04 - 完整信息的静态博弈 理性和公共知识
机器学习
读书笔记: 博弈论导论 - 04 - 完整信息的静态博弈 理性和公共知识 理性和公共知识 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 纯策略中的优势(dominance) 数学表达: 除了玩家i以外所有玩家的策略集合 : 所有人的所有策略组合。 : 除了玩家 以外,所有人的所有策略组合。 : 所有人的一种策略组合。 : 除了玩家 以外,所有人的一种策略组合。 引进 和 是为了 通过看玩家i以外的
绿巨人
2018-05-18
1.6K
0
读书笔记: 博弈论导论 - 03 - 完整信息的静态博弈 预备知识
机器学习
读书笔记: 博弈论导论 - 03 - 完整信息的静态博弈 预备知识 预备知识 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 知识点 静态完全信息博弈(static games of complete information) 第一步:每个玩家同时并且独立的选择一个行动,(每个玩家都不知道别人的选择情况) 第二步:根据所有玩家选择的行动,收益被分布到每个玩家。 完全信息博弈(Games of Complete Information)
绿巨人
2018-05-18
622
0
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间
强化学习
机器学习
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 术语 概率分布函数(probability distribution function) 一个简单投机(lottery)(行动 )在结果 上的概率分布记做 累积分布函数(cumulative distribution function) 一个简单投机(lottery)行动 ,在结果区间 上的累积分布函数:
绿巨人
2018-05-18
961
0
读书笔记: 博弈论导论 - 01 - 单人决策问题
机器学习
读书笔记: 博弈论导论 - 01 - 单人决策问题 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 博弈论语言 这章的一个目的是开发一种用于决策的语言。 决策问题的三要素 行动(action): 玩家可能的选择 结果(outcome): 每个行动的可能后果 倾向(preference): 对所有可能后果,按照从最渴望到最不渴望的排列。 术语 倾向关系(preference relation) 描述了玩家的倾向, 意味着“x至少和y
绿巨人
2018-05-18
656
0
蒙特卡洛树搜索算法(UCT): 一个程序猿进化的故事
机器学习
编程算法
前言: 本文是根据的文章Introduction to Monte Carlo Tree Search by Jeff Bradberry所写。 Jeff Bradberry还提供了一整套的例子,用python写的。 board game server board game client Tic Tac Toe board AI implementation of Tic Tac Toe 阿袁工作的第一天 - 蒙特卡罗树搜索算法 - 游戏的通用接口board 和 player 阿袁看到阿静最近在学
绿巨人
2018-05-18
2.5K
0
神经网络学习笔记-01-基本概念
神经网络
机器学习
神经网络学习笔记-01-基本概念 基本概念 Artificial Neural Network - 基于神经元的计算方向。 一个人工神经网络系统一般包含多个层,每层包含多个神经元(也称为节点)。 第一层是输入层。 基本上没有什么计算功能,主要是将输入数据映射到每个节点上。 中间的层次为隐藏层。 每层都会有一个输出,包含了本层每个节点的输出数据。 每层的输出数据,也是下一层的输入数据。 每层的每个节点会对输入数据分别计算,产生不同的计算结果。 最后一层是输出层。 输出层的每个节点对应一个分类,计算
绿巨人
2018-05-18
472
0
神经网络学习笔记 - 损失函数的定义和微分证明
神经网络
机器学习
神经网络学习笔记 - 损失函数的定义和微分证明 损失函数 Loss function (cross entropy loss) 损失函数,反向传播和梯度计算构成了循环神经网络的训练过程。 激活函数softmax和损失函数会一起使用。 激活函数会根据输入的参数(一个矢量,表示每个分类的可能性),计算每个分类的概率(0, 1)。 损失函数根据softmax的计算结果\(\hat{y}\)和期望结果\(y\),根据交叉熵方法(cross entropy loss) 可得到损失\(L\)。 cross entr
绿巨人
2018-05-17
1.6K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档