首页
学习
活动
专区
工具
TVP
发布

绿巨人专栏

专栏作者
129
文章
157477
阅读量
44
订阅数
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 术语 概率分布函数(probability distribution function) 一个简单投机(lottery)(行动\(a \in A\))在结果 $ X = { x_1, x_2, \cdots, x_n }$上的概率分布记做 \[ p = (p(x_1|a), p(x_2|a), \cdots, p(x_n|a)
绿巨人
2018-07-04
3180
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 术语 概率分布函数(probability distribution function) 一个简单投机(lottery)(行动 )在结果 上的概率分布记做 累积分布函数(cumulative distribution function) 一个简单投机(lottery)行动 ,在结果区间 上的累积分布函数:
绿巨人
2018-05-18
9610
强化学习读书笔记 - 01 - 强化学习的问题
强化学习读书笔记 - 01 - 强化学习的问题 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 什么是强化学习(Reinforcement Learning) 强化学习是一种通过交互的目标导向学习方法,或者说是计算方向。 不同于监督学习和非监督学习。 监督学习是通过已标签的数据,学习分类的逻辑。 非监督学习是通过未标签的数据,找到其中的隐藏模式。 强化学习
绿巨人
2018-05-17
6930
强化学习读书笔记 - 02 - 多臂老O虎O机问题
强化学习读书笔记 - 02 - 多臂老O虎O机问题 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号的含义 image.png 多臂老O虎O机问题 一般的老O虎O机只有一个臂(杆)。你塞10个硬币,拉一下杆,老O虎O机可能会吐出来一两个硬币,或者100个硬币。 多臂老O虎O机有多个杆(象征着多个行动(action),每个杆有自己特有的吐
绿巨人
2018-05-17
1.1K0
强化学习读书笔记 - 03 - 有限马尔科夫决策过程
强化学习读书笔记 - 03 - 有限马尔科夫决策过程 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 代理-环境接口(The agent-environment interface) 代理(agent) - 学习者或者决策者 环境(environment) - 代理外部的一切,代理与之交互。 情节性任务(Episodic Tasks)和连续任务(
绿巨人
2018-05-17
6120
强化学习读书笔记 - 04 - 动态规划
强化学习读书笔记 - 04 - 动态规划 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 术语和数学符号 动态规划(Dynamic Programming) - 计算最优策略的一组算法。 策略 强化学习的一个主要目的是:找到最优策略。 我们先要明白什么是策略? 策略告诉主体(ag
绿巨人
2018-05-17
5990
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 术语和数学符号 蒙特卡洛方法简话 蒙特卡洛是一个赌城的名字。冯·诺依曼给这方法起了这个名字,增加其神秘性。 蒙特卡洛方法是一个计算方法,被广泛的用于
绿巨人
2018-05-17
1.8K0
强化学习读书笔记 - 10 - on-policy控制的近似方法
强化学习读书笔记 - 10 - on-policy控制的近似方法 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术
绿巨人
2018-05-17
9380
强化学习读书笔记 - 11 - off-policy的近似方法
强化学习读书笔记 - 11 - off-policy的近似方法 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术语
绿巨人
2018-05-17
7810
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化
绿巨人
2018-05-17
1.9K0
强化学习读书笔记 - 14 - 心理学
强化学习读书笔记 - 14 - 心理学 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术语和数学符号 强化学习读书
绿巨人
2018-05-17
7610
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档