腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

杨熹的专栏

专栏作者

302

文章

364337

阅读量

55

订阅数

强化学习 12 - 什么是 DQN

前面我们有一篇文章介绍了 q learning，也用 Deep Q Network 做了一个小游戏，但是还没有详细的讲DQN的理论，今天我们就来看一下它的概念。

2018-12-27

1.3K0

强化学习第5课：什么是马尔科夫决策过程

强化学习其他机器人游戏

它和我们前面讲的决策过程是有一样的结构，只不过它会有更多限制。这里同样也有 agent 和环境，只不过还就多了一个状态，用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为，并从环境中获得反馈。

2018-12-10

6720

强化学习第3课

强化学习网站其他 arm 推荐系统

病人去看医生，医生就是这个代理，医生观察一些症状，并给出一个治疗方案，然后会得到一个反馈，病人是否在治疗之后感觉好一些了等等。

2018-12-07

4040

强化学习第4课：这些都可以抽象为一个决策过程

强化学习机器人游戏

这个过程有两步，首先你的代理会观察环境的一些特质，有时是传感器感知到的，有些是输入的用户特征。然后代理会选择一个行为，将这个行为反馈给环境。之后代理不仅仅会收到在这个行为下的环境的反馈，同时还以某些方式，影响着环境改变着环境。例如，你不仅收到了用户是否点击了你的横幅广告的反馈，还影响着你的用户基础。

2018-12-07

3680

强化学习第2课：强化学习，监督式学习，非监督式学习的区别

在监督式学习中，我们有数据集，还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

2018-12-06

1.2K0

强化学习第一课：像学自行车一样的强化学习

强化学习机器学习编程算法决策树线性回归

在监督式学习中，我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树，线性回归等模型，然后训练这些模型使损失函数达到最小。

2018-12-06

6010

强化学习 8: approximate reinforcement learning

神经网络强化学习

前面说过，对于骑自行车这种可能只有十个 state，四个 aciton 的小问题上面，交叉熵可以解决，但如果在自动驾驶，或者打游戏上面，它却不行，因为这时我们没有办法再存储一个表格来记录所有可能状态的所有可能行为的概率，因为这可能有几十亿的状态，或者是一个连续空间，是没有办法做记录的。存储这样的表格不仅是不可能的，也是没有效率的。如果我们稍微改变了某个状态，agent 就要从头开始学习，因为这是一个不同的状态，从来没有见过。

2018-11-21

4990

用一个小游戏入门深度强化学习

游戏强化学习编程算法机器学习

今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。

2018-10-09

1.2K0

论文｜ AlphaGo Zero 的模型和算法

编程算法强化学习神经网络

上一篇文章简单学习了 AlphaGo Zero 的特点： AlphaGo Zero 初探 http://www.jianshu.com/u/7b67af2e61b3 算法采用自对弈强化学习，不再需要

2018-04-03

7500

David Silver深度强化学习第1课

强化学习机器学习

强化学习－1.jpg 强化学习本质上是要找到一种最优的方式来做决策。强化学习涉及到很多学科领域，例如它是计算机科学中机器学习的一部分，工业中的优化控制，还有模拟神经科学中的奖励机制的算法，心理学中的条件反射也是一种奖励机制，数学中的运筹学，经济学中的博弈论等，这些都是研究如何做决策能够使效用最大化。强化学习和其他机器学习方法的区别： There is no supervisor, only a reward signal 只告诉它怎样是好的加3分，怎样是坏的扣10分，但不会告诉它到底要怎么做才

2018-04-03

6400

一文了解强化学习

强化学习机器学习

虽然是周末，也保持充电，今天来看看强化学习，不过不是要用它来玩游戏，而是觉得它在制造业，库存，电商，广告，推荐，金融，医疗等与我们生活息息相关的领域也有很好的应用，当然要了解一下了。本文结构：定义和监督式学习, 非监督式学习的区别主要算法和类别应用举例 ---- 1. 定义强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物，它的本质是解决 decision making 问题，即自动进行决策，并且可以做连续决策。它主要包含四个元素，agent，环境状态，行动，奖励, 强化学习的目标

2018-04-03

7300

TensorFlow-11-策略网络

tensorflow 机器学习强化学习

今日资料：《Tensorflow 实战》－策略网络代码： https://github.com/awjuliani/DeepRL-Agents/blob/master/Policy-Network.ipynb 强化学习是机器学习的一个重要分支，可以解决连续决策的问题。一个强化学习问题，主要包含三个概念，环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。它有很多应用，比如控制机器人，无人驾驶，商品定价，库存管理，玩游戏，例如AlphaGo。例如在围棋这个游戏中，环境状态指的是已经出

2018-04-03

7010

机器学习&人工智能博文链接汇总

机器学习人工智能 tensorflow 深度学习强化学习

? 争取每天更新 ? 126 蜗牛的历程： [入门问题] [机器学习] [聊天机器人] [好玩儿的人工智能应用实例] [TensorFlow] [深度学习] [强化学习] [神经网络

2018-04-02

1.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态