腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
杨熹的专栏
专栏作者
举报
302
文章
364337
阅读量
55
订阅数
订阅专栏
申请加入专栏
全部文章
其他
机器学习
神经网络
人工智能
编程算法
深度学习
tensorflow
NLP 服务
强化学习
python
游戏
https
大数据
数据处理
http
网络安全
action
推荐系统
agent
state
java
node.js
html
决策树
数据分析
数据库
企业
存储
机器人
table
云数据库 SQL Server
中文分词
云推荐引擎
网站
爬虫
正则表达式
keras
数据可视化
app
excel
friend
sample
sum
区块链
自动驾驶
数据挖掘
go
bash
scala
bootstrap
android
arm
git
github
搜索引擎
bash 指令
spring
mapreduce
云函数
数据加密服务
短信
腾讯云测试服务
渲染
无人驾驶
卷积神经网络
numpy
监督学习
线性回归
二叉树
flash
kernel
迁移学习
数据结构
adobe
build
com
csv
data
function
google
greedy
image
jobs
join
key
label
list
max
model
paste
pivot
png
probability
relationship
render
target
uber
vi
vr
youtube
zero
笔记
表格
程序员
工具
数学
原理
搜索文章
搜索
搜索
关闭
强化学习 12 - 什么是 DQN
强化学习
前面我们有一篇文章介绍了 q learning, 也用 Deep Q Network 做了一个小游戏, 但是还没有详细的讲DQN的理论,今天我们就来看一下它的概念。
杨熹
2018-12-27
1.3K
0
强化学习第5课:什么是马尔科夫决策过程
强化学习
其他
机器人
游戏
它和我们前面讲的决策过程是有一样的结构,只不过它会有更多限制。这里同样也有 agent 和环境,只不过还就多了一个状态,用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为,并从环境中获得反馈。
杨熹
2018-12-10
672
0
强化学习第3课
强化学习
网站
其他
arm
推荐系统
病人去看医生,医生就是这个代理,医生观察一些症状,并给出一个治疗方案,然后会得到一个反馈,病人是否在治疗之后感觉好一些了等等。
杨熹
2018-12-07
404
0
强化学习第4课:这些都可以抽象为一个决策过程
强化学习
机器人
游戏
这个过程有两步,首先你的代理会观察环境的一些特质,有时是传感器感知到的,有些是输入的用户特征。 然后代理会选择一个行为,将这个行为反馈给环境。 之后代理不仅仅会收到在这个行为下的环境的反馈,同时还以某些方式,影响着环境改变着环境。 例如,你不仅收到了用户是否点击了你的横幅广告的反馈,还影响着你的用户基础。
杨熹
2018-12-07
368
0
强化学习第2课:强化学习,监督式学习,非监督式学习的区别
强化学习
在监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。
杨熹
2018-12-06
1.2K
0
强化学习第一课:像学自行车一样的强化学习
强化学习
机器学习
编程算法
决策树
线性回归
在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。
杨熹
2018-12-06
601
0
强化学习 8: approximate reinforcement learning
神经网络
强化学习
前面说过,对于骑自行车这种可能只有十个 state,四个 aciton 的小问题上面,交叉熵可以解决,但如果在自动驾驶,或者打游戏上面,它却不行,因为这时我们没有办法再存储一个表格来记录所有可能状态的所有可能行为的概率,因为这可能有几十亿的状态,或者是一个连续空间,是没有办法做记录的。 存储这样的表格不仅是不可能的,也是没有效率的。如果我们稍微改变了某个状态,agent 就要从头开始学习,因为这是一个不同的状态,从来没有见过。
杨熹
2018-11-21
499
0
用一个小游戏入门深度强化学习
游戏
强化学习
编程算法
机器学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。
杨熹
2018-10-09
1.2K
0
论文 | AlphaGo Zero 的模型和算法
编程算法
强化学习
神经网络
上一篇文章简单学习了 AlphaGo Zero 的特点: AlphaGo Zero 初探 http://www.jianshu.com/u/7b67af2e61b3 算法采用自对弈强化学习,不再需要
杨熹
2018-04-03
750
0
David Silver深度强化学习第1课
强化学习
机器学习
强化学习-1.jpg 强化学习本质上是要找到一种最优的方式来做决策。 强化学习涉及到很多学科领域,例如它是计算机科学中机器学习的一部分,工业中的优化控制,还有模拟神经科学中的奖励机制的算法,心理学中的条件反射也是一种奖励机制,数学中的运筹学,经济学中的博弈论等,这些都是研究如何做决策能够使效用最大化。 强化学习和其他机器学习方法的区别: There is no supervisor, only a reward signal 只告诉它怎样是好的加3分,怎样是坏的扣10分,但不会告诉它到底要怎么做才
杨熹
2018-04-03
640
0
一文了解强化学习
强化学习
机器学习
虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了。 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 应用举例 ---- 1. 定义 强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。 它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标
杨熹
2018-04-03
730
0
TensorFlow-11-策略网络
tensorflow
机器学习
强化学习
今日资料: 《Tensorflow 实战》-策略网络 代码: https://github.com/awjuliani/DeepRL-Agents/blob/master/Policy-Network.ipynb 强化学习是机器学习的一个重要分支,可以解决连续决策的问题。 一个强化学习问题,主要包含三个概念,环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。 它有很多应用,比如控制机器人,无人驾驶,商品定价,库存管理,玩游戏,例如AlphaGo。 例如在围棋这个游戏中,环境状态指的是已经出
杨熹
2018-04-03
701
0
机器学习&人工智能博文链接汇总
机器学习
人工智能
tensorflow
深度学习
强化学习
? 争取每天更新 ? 126 蜗牛的历程: [入门问题] [机器学习] [聊天机器人] [好玩儿的人工智能应用实例] [TensorFlow] [深度学习] [强化学习] [神经网络
杨熹
2018-04-02
1.3K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档