首页
学习
活动
专区
工具
TVP
发布

ArrayZoneYour的专栏

专栏作者
17
文章
81977
阅读量
45
订阅数
TensorFlow强化学习入门(5)—— 可视化Agent的“所思所想”
在我的强化学习系列的文章中,我想要深入探究我们基于神经网络的agent在训练过程中习得的表达形式。尽管我们的直接目的是希望我们的agent能够获得更高的分数,或者完成某一具体的任务,但是了解agent如何做到,或者更进一步,agent为什么可以做到对于我们来说是同等甚至更加重要的。为了更加清楚地看到agent的学习过程,我使用了d3.js制作了一个网页来展示agent学习的各种信息。我称之为 强化学习控制中心。在本文中,我会用它来进一步讲解agent的原理。
ArrayZoneYour
2018-03-03
2.3K0
TensorFlow强化学习入门(4)——深度Q网络(DQN)及其扩展
本文中我们将一起创建一个深度Q网络(DQN)。它基于我们系列文章中(0)的单层Q网络,如果你是强化学习的初学者,我推荐你到文末跳转到(0)开始阅读。尽管简单的Q网路已经可以在简单的问题上和Q表表现一样出色,但是深度Q网络可以使其变得更强。要将简单的Q网络转化为深度Q网路,我们需要以下改进:
ArrayZoneYour
2018-03-01
7.7K1
TensorFlow强化学习入门(2)——基于策略的Agents
在本教程系列的(1)中,我演示了如何构建一个agent来在多个选择中选取最有价值的一个。在本文中,我将讲解如何得到一个从现实世界中获取 观测值 ,并作出 长期收益 最大的 行动 的agent。正如前文所说,本文解决的问题将是一个完备的强化学习问题。
ArrayZoneYour
2018-02-25
1.5K0
TensorFlow强化学习入门(1.5)——上下文赌博机
在上一篇文章中我们简要介绍了强化学习并构建了一个简单的agent来解决多臂赌博机问题。在多臂赌博机问题中agent不需要考虑所处环境的状态,只要通过学习确定那一个行动是最优的即可。在不考虑环境状态时,任一时间点上的最优决策是所有时刻最优的决策。在本文结束后,我们会建立一个完备的强化学习问题:问题中存在环境状态并且下一时刻的状态取决于上一步的行动,决策的收益也是延迟发放的。
ArrayZoneYour
2018-02-24
1.7K0
TensorFlow强化学习入门(1)——双臂赌博机
强化学习不仅仅赋予了我们教会人工agent如何行动的能力,还使得agent可以通过我们提供的交互式环境进行学习。通过结合深度神经网络习得的复杂表示和RL agent的目标驱动型学习,计算机取得了很多令人惊叹的成绩:在很多中雅达利游戏中击败人类,打败围棋世界冠军等等。
ArrayZoneYour
2018-02-22
1.7K0
使用TensorFlow实现股票价格预测深度学习模型
Sebastian Heinz. A simple deep learning model for stock price prediction using TensorFlow
ArrayZoneYour
2018-02-18
11.3K1
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档