腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
绿巨人专栏
专栏作者
举报
129
文章
157477
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(129)
其他(37)
机器学习(26)
编程算法(13)
强化学习(11)
java(8)
scala(7)
神经网络(6)
typescript(5)
node.js(4)
json(4)
数据库(4)
spark(4)
go(3)
打包(3)
http(3)
游戏(3)
markdown(3)
NLP 服务(2)
c++(2)
python(2)
javascript(2)
linux(2)
缓存(2)
npm(2)
windows(2)
rust(2)
官方文档(1)
ios(1)
iphone(1)
.net(1)
react(1)
css(1)
sql(1)
access(1)
ide(1)
git(1)
api(1)
centos(1)
apache(1)
容器镜像服务(1)
访问管理(1)
云推荐引擎(1)
人工智能(1)
开源(1)
面向对象编程(1)
监督学习(1)
决策树(1)
tcp/ip(1)
数据分析(1)
wpf(1)
addition(1)
element(1)
excel(1)
flags(1)
hide(1)
identity(1)
include(1)
kill(1)
locking(1)
multiplication(1)
mysql(1)
ocr(1)
response(1)
select(1)
set(1)
theory(1)
thread(1)
worksheet(1)
连接(1)
事务(1)
源码(1)
搜索文章
搜索
搜索
关闭
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间
强化学习
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 术语 概率分布函数(probability distribution function) 一个简单投机(lottery)(行动\(a \in A\))在结果 $ X = { x_1, x_2, \cdots, x_n }$上的概率分布记做 \[ p = (p(x_1|a), p(x_2|a), \cdots, p(x_n|a)
绿巨人
2018-07-04
318
0
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间
强化学习
机器学习
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 术语 概率分布函数(probability distribution function) 一个简单投机(lottery)(行动 )在结果 上的概率分布记做 累积分布函数(cumulative distribution function) 一个简单投机(lottery)行动 ,在结果区间 上的累积分布函数:
绿巨人
2018-05-18
961
0
强化学习读书笔记 - 01 - 强化学习的问题
强化学习
强化学习读书笔记 - 01 - 强化学习的问题 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 什么是强化学习(Reinforcement Learning) 强化学习是一种通过交互的目标导向学习方法,或者说是计算方向。 不同于监督学习和非监督学习。 监督学习是通过已标签的数据,学习分类的逻辑。 非监督学习是通过未标签的数据,找到其中的隐藏模式。 强化学习
绿巨人
2018-05-17
693
0
强化学习读书笔记 - 02 - 多臂老O虎O机问题
强化学习
强化学习读书笔记 - 02 - 多臂老O虎O机问题 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号的含义 image.png 多臂老O虎O机问题 一般的老O虎O机只有一个臂(杆)。你塞10个硬币,拉一下杆,老O虎O机可能会吐出来一两个硬币,或者100个硬币。 多臂老O虎O机有多个杆(象征着多个行动(action),每个杆有自己特有的吐
绿巨人
2018-05-17
1.1K
0
强化学习读书笔记 - 03 - 有限马尔科夫决策过程
强化学习
强化学习读书笔记 - 03 - 有限马尔科夫决策过程 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 代理-环境接口(The agent-environment interface) 代理(agent) - 学习者或者决策者 环境(environment) - 代理外部的一切,代理与之交互。 情节性任务(Episodic Tasks)和连续任务(
绿巨人
2018-05-17
612
0
强化学习读书笔记 - 04 - 动态规划
强化学习
强化学习读书笔记 - 04 - 动态规划 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 术语和数学符号 动态规划(Dynamic Programming) - 计算最优策略的一组算法。 策略 强化学习的一个主要目的是:找到最优策略。 我们先要明白什么是策略? 策略告诉主体(ag
绿巨人
2018-05-17
599
0
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
强化学习
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 术语和数学符号 蒙特卡洛方法简话 蒙特卡洛是一个赌城的名字。冯·诺依曼给这方法起了这个名字,增加其神秘性。 蒙特卡洛方法是一个计算方法,被广泛的用于
绿巨人
2018-05-17
1.8K
0
强化学习读书笔记 - 10 - on-policy控制的近似方法
强化学习
强化学习读书笔记 - 10 - on-policy控制的近似方法 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术
绿巨人
2018-05-17
938
0
强化学习读书笔记 - 11 - off-policy的近似方法
强化学习
强化学习读书笔记 - 11 - off-policy的近似方法 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术语
绿巨人
2018-05-17
781
0
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化
绿巨人
2018-05-17
1.9K
0
强化学习读书笔记 - 14 - 心理学
强化学习
强化学习读书笔记 - 14 - 心理学 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 - 00 - 术语和数学符号 强化学习读书
绿巨人
2018-05-17
761
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档