综述 本篇博文将向大家演示,如何在仅仅运用78行代码的情况下,利用 Keras 和 Gym 实现深度强化学习,使得 CartPole 这款游戏得以成功运行。 即使你不知道强化学习是什么也没关系,我会
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。
20世纪50年代,John McCarthy开创了Artificial Intelligence(简称AI)这个词,一下子就和Marvin Minsky一起,成为AI领域的奠基人。同样在1958年,Frank Rosenblatt造了一个神经网络的雏形,这个模型被他称为“感知器”。后来,1989年时,计算机视觉的“深度学习神经网络”也火了。再后来,1997年,处理“时间序列”的基础算法也发展了起来,比如,LSTM(Long Short-Term Memory,长短期记忆网络)。给了这么多例子,那么,为什么这些AI 技术会繁荣起来呢?
作者 | 黄文坚 浅析强化学习 强化学习(Reinforcement Learning)是机器学习的一个重要分支,主要用来解决连续决策的问题。强化学习可以在复杂、不确定的环境中学习如何实现我们设定的目标。强化学习的应用场景非常广,几乎包括了所有需要做一系列决策的问题,比如控制机器人的电机让它执行特定任务,给商品定价或者库存管理,玩视频或棋牌游戏等。 强化学习也可以应用到有序列输出的问题中,因为它可以针对一系列变化的环境状态,输出一系列对应的行动。举个简单的例子,围棋(乃至全部棋牌类游戏)可以归结为一个强化
一、介绍 目前,对于全球科学家而言,“如何去学习一种新技能”成为了一个最基本的研究问题。为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前可能没有想到的事。或者,我们可以训练去做更多的“人类”工作,常遭一个真正的人工智能时代。 虽然,对于上述问题,我们目前还没有一个完整的答案去解释,但是有一些事情是可以理解的。先不考虑技能的学习,我们首先需要与环境进行交互。无论我们是学习驾驶汽车还是婴儿学习走路,学习都是基于和环境的相互交互。从互动中学习是所有智力发展和学习理论
介绍 目前,对于全球科学家而言,“如何去学习一种新技能”成为了一个最基本的研究问题。为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前可能没有想到的事。或者,我们可以训练去做更多的“人类”工作,常遭一个真正的人工智能时代。 虽然,对于上述问题,我们目前还没有一个完整的答案去解释,但是有一些事情是可以理解的。先不考虑技能的学习,我们首先需要与环境进行交互。无论我们是学习驾驶汽车还是婴儿学习走路,学习都是基于和环境的相互交互。从互动中学习是所有智力发展和学习理论
介绍 目前,对于全球科学家而言,“如何去学习一种新技能”成为了一个最基本的研究问题。为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前可能没有想到的事。或者,我们可以训练去做更多的“人类”工作,常遭一个真正的人工智能时代。 虽然,对于上述问题,我们目前还没有一个完整的答案去解释,但是有一些事情是可以理解的。先不考虑技能的学习,我们首先需要与环境进行交互。无论我们是学习驾驶汽车还是婴儿学习走路,学习都是基于和环境的相互交互。从互动中学习是所有智力发展和学习理论的基
选自Medium 作者:Yash Patel 机器之心编译 参与:Jane W 本文先给出 Q 学习(Q-learning)的基本原理,然后再具体从 DQN 网络的超参数、智能体、模型和训练等方面详细解释了深度 Q 网络,最后,文章给出了该教程的全部代码。 在之前的 Keras/OpenAI 教程中,我们讨论了一个将深度学习应用于强化学习环境的基础案例,它的效果非常显著。想象作为训练数据的完全随机序列(series)。任何两个序列都不可能高度彼此重复,因为这些都是随机产生的。然而,成功的试验之间存在相同的关
本教程面向所有对强化学习感兴趣的人,不会涉及太深的机器学习基础,但主题中涵盖了高级策略网络和价值网络的相关知识。此外,我建议阅读 Voldymyr Mnih 的《Asynchronous Methods for Deep Reinforcement Learning》(https://arxiv.org/abs/1602.01783),这篇文章很值得一读,而且文中涉及到本教程采用的算法的很多细节。
介绍 目前,对于全球的科学家而言,“如何去学习一种新技能”已经成为最基本的研究课题之一。解决这个问题的意愿显而易见——如果能够解决这个问题,那么人类就有望做到某些从未想过的事情。换句话说,我们可以训练机器去做更多原本人类要做的工作,迎来真正的人工智能时代。 虽然,对于上述问题,目前我们还没有一个完整的回答,但有一些事情是十分明确的。不考虑技能方面的学习,我们首先的是在与环境的交互过程中进行学习。不管是学习开车,还是婴儿学习走路,学习的基础都是与环境的交互过程。在互动中学习是所有学习理论以及智力发展理论的
介绍 目前,对于全球的科学家而言,“如何去学习一种新技能”已经成为最基本的研究课题之一。解决这个问题的意愿显而易见——如果能够解决这个问题,那么人类就有望做到某些从未想过的事情。换句话说,我们可以训练机器去做更多原本人类要做的工作,迎来真正的人工智能时代。 虽然,对于上述问题,目前我们还没有一个完整的回答,但有一些事情是十分明确的。不考虑技能方面的学习,我们首先的是在与环境的交互过程中进行学习。不管是学习开车,还是婴儿学习走路,学习的基础都是与环境的交互过程。在互动中学习是所有学习理论以及智力发展理论的最
“如何学习新技能?”这是一个全球科学家都在研究的基础问题。为什么会想要知道这个问题的答案呐,答对了好处都有啥呢? 因为一旦我们能够理解这一点,就可以实现一些前人难以想象的事情。 比如让机器自己学习来完成许多“人类才能完成的任务”,从而制造出真正的人工智能。 不过目前为止对上述问题大家都还没有一个完整的答案,但有一些事儿我们倒是清楚的。即无论什么样的技能,首先都是通过个体与环境之间的交互来学习的。无论是我们学习开车还是婴儿学习走路,整个过程都是基于与环境的互动来完成的。 因此,倒是可以得出一个结论,即从互动
Reaver 是一个模块化的深度强化学习框架,可提供比大多数开源解决方案更快的单机并行化能力,支持星际争霸 2、OpenAI Gym、Atari、MuJoCo 等常见环境,其网络被定义为简单的 Keras 模型,易于配置和共享设置。在示例中,Reaver 在不到 10 秒钟内通过了 CartPole-v0 游戏,在 4 核 CPU 笔记本上每秒采样率为 5000 左右。
今天,《星际争霸2》(后称星际2)深度强化学习(DRL)智能体Reaver开源了,引来大量Reddit用户围观。
选自freeCodeCamp 机器之心编译 参与:陈韵竹、刘晓坤 本文通过一种简单的 Catch 游戏介绍了深度强化学习的基本原理,并给出了完整的以 Keras 为前端的 TensorFlow 代码实现,是入门深度强化学习的不错选择。 GitHub 链接:https://github.com/JannesKlaas/sometimes_deep_sometimes_learning/blob/master/reinforcement.ipynb 去年,DeepMind 的 AlphaGo 以 4-1 的比
大数据文摘作品,转载具体要求见文末 编译团队 | Jennifer Zhu 赖小娟 张礼俊 作者 | FAIZAN SHAIKH 很多人说,强化学习被认为是真正的人工智能的希望。本文将从7个方面带你入门强化学习,读完本文,希望你对强化学习及实战中实现算法有着更透彻的了解。 介绍 许多科学家都在研究的一个最基本的问题是“人类如何学习新技能?”。 理由显而易见– 如果我们能解答这个问题,人类就能做到很多我们以前没想到的事情。 另一种可能是我们训练机器去做更多的“人类”任务,创造出真正的人工智能。 虽然我们还没
选自Open AI Blog 机器之心编译 参与:黄小天、微胖 我们开源了 OpenAI 基准(https://github.com/openai/baselines),努力再现与已发表论文成绩相当的强化学习算法。接下来几个月,我们将发布算法;今天发布的是 DQN 和它的三个变体。 重现强化学习结果非常复杂:性能非常嘈杂,算法有很多活动部分,因此会有微妙漏洞,而且很多论文都没有报告所有必要的技巧。通过发布正确的实现(Know-good)(以及创造这些的最佳实践),我们希望确保强化学习的显著优势与现有算法的错
这里,s是状态,a是行为/动作,θ是策略网络的模型参数,π是常见的表示策略的符号。我们可以设想策略是我们行为的代理人,即一个从状态到动作的映射函数。
https://github.com/rlcode/reinforcement-learning/blob/master/2-cartpole/5-a3c/cartpole_a3c.py
【新智元导读】新智元不久前盘点了2016年 Top50 的深度学习库,本文则根据 GitHub里星标(Star)数多少,整理了排名前16的深度学习应用项目,从风格迁移到生成图说、玩FlappyBird游戏、分辨视频里的不宜内容等,供你参考实践。这份榜单还会持续更新哦~ Neural Style Star:12122 Github 地址:https://github.com/jcjohnson/neural-style 这个项目是用 Torch 对 Leon A. Gatys, Alexander S. Ec
领取专属 10元无门槛券
手把手带您无忧上云