腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

绿巨人专栏

专栏作者

129

文章

157477

阅读量

44

订阅数

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间前言本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。术语概率分布函数(probability distribution function) 一个简单投机(lottery)(行动\(a \in A\))在结果 $ X = { x_1, x_2, \cdots, x_n }$上的概率分布记做 \[ p = (p(x_1|a), p(x_2|a), \cdots, p(x_n|a)

2018-07-04

3180

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间

强化学习机器学习

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间前言本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。术语概率分布函数(probability distribution function) 一个简单投机(lottery)(行动）在结果上的概率分布记做累积分布函数(cumulative distribution function) 一个简单投机(lottery)行动，在结果区间上的累积分布函数：

2018-05-18

9610

强化学习读书笔记 - 01 - 强化学习的问题

强化学习读书笔记 - 01 - 强化学习的问题 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 什么是强化学习(Reinforcement Learning) 强化学习是一种通过交互的目标导向学习方法，或者说是计算方向。不同于监督学习和非监督学习。监督学习是通过已标签的数据，学习分类的逻辑。非监督学习是通过未标签的数据，找到其中的隐藏模式。强化学习

2018-05-17

6930

强化学习读书笔记 - 02 - 多臂老O虎O机问题

强化学习读书笔记 - 02 - 多臂老O虎O机问题学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号的含义 image.png 多臂老O虎O机问题一般的老O虎O机只有一个臂（杆）。你塞10个硬币，拉一下杆，老O虎O机可能会吐出来一两个硬币，或者100个硬币。多臂老O虎O机有多个杆（象征着多个行动(action)，每个杆有自己特有的吐

2018-05-17

1.1K0

强化学习读书笔记 - 03 - 有限马尔科夫决策过程

强化学习读书笔记 - 03 - 有限马尔科夫决策过程学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 代理-环境接口(The agent-environment interface) 代理(agent) - 学习者或者决策者环境(environment) - 代理外部的一切，代理与之交互。情节性任务(Episodic Tasks)和连续任务(

2018-05-17

6120

强化学习读书笔记 - 04 - 动态规划

强化学习读书笔记 - 04 - 动态规划学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的，先看看这里：强化学习读书笔记 - 00 - 术语和数学符号动态规划(Dynamic Programming) - 计算最优策略的一组算法。策略强化学习的一个主要目的是：找到最优策略。我们先要明白什么是策略？策略告诉主体(ag

2018-05-17

5990

强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)

强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的，先看看这里：强化学习读书笔记 - 00 - 术语和数学符号蒙特卡洛方法简话蒙特卡洛是一个赌城的名字。冯·诺依曼给这方法起了这个名字，增加其神秘性。蒙特卡洛方法是一个计算方法，被广泛的用于

2018-05-17

1.8K0

强化学习读书笔记 - 10 - on-policy控制的近似方法

强化学习读书笔记 - 10 - on-policy控制的近似方法学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术

2018-05-17

9380

强化学习读书笔记 - 11 - off-policy的近似方法

强化学习读书笔记 - 11 - off-policy的近似方法学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术语

2018-05-17

7810

强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)

强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化

2018-05-17

1.9K0

强化学习读书笔记 - 14 - 心理学

强化学习读书笔记 - 14 - 心理学学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术语和数学符号强化学习读书

2018-05-17

7610

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态