Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)

【导读】本文是Kirti Bakshi在1月14日写的关于其强化学习课程的一个介绍,作者首先简单介绍了机器学习的缺点,以及为什么使用深度学习。然后讲述了其开设的课程的主要内容,包括:强化学习基础、实用的算法、实用案例等内容。文末给出了课程的GitHub链接、slide链接、指南地址,有兴趣的小伙伴可以下载仔细研究一下。

Practical_RL: Reinforcement learning for seq2seq (pytorch, tensorflow, theano)

在过去的几十年里,机器学习方法发展迅速。 人们可以教算法怎么去理解,找到图像上的对象,翻译自然语言以及甚至生成文本和语音,甚至如果给出足够的标记数据,则可以在因特网上做信息检索(超过人类水平或与人类同水平)。 前面唯一的缺点是,并不是每个问题都可以被认为是学习X - > y转换(拟合一些参考标签)。

▌关于本课程:



例如我们发现,在人们说话、学习、玩新的游戏、在城市环境中导航、设计登陆页面、骑自行车、甚至建立强化学习代理时,你不止是简单地教科书式地记住那些最优方案的例子。这些问题的共同之处在于,他们都可以通过反复实验的方法来解决:坚持让那些不好的方面影响较小。

更常见的是,这些问题可以在不同程度上被自动解决。 所以在这里我们要做的就是在整个课程中训练机器使其可以进行创造性的解决方案。

MOOC的主要重点是对“机器”等life-size问题进行训练,称为强化学习(RL)算法。

▌菜单包括:



  • RL基础
  • 实用算法
  • “黑客”工程
  • 实例学习
  • 新鲜好文章

内容包括各种各样的资料,从机器人和游戏到chatbots(聊天机器人),再到金融。 该课程在HSE(俄语)校园内进行授课,一直保持对学生友好(包括英语和俄语)。

▌为了从这门课程中获益,需要了解什么?



本课程假定学习者已经掌握以下内容:

  • 代数,微积分(向量,矩阵,基本积分)
  • 概率(贝叶斯定理,期望,方差)
  • 优化(梯度下降)
  • 基本的机器学习(线性模型,决策树)
  • 编码(python,numpy,sklearn)

还有一件事要知道,这门课程与深度学习的方法有着紧密的联系。 没有严格的要求有神经网络的经验,因为课程将使用Theano和Lasagne进行速成课程,但是知道如何使用神经网络一定会派上用场的。

我们的目标是介绍给学生现代人工智能研究的一个突出领域:强化学习。 强化学习更多的是关于人类如何在现实中学习,与有监督学习和无监督学习有很大不同。

▌声明:



延伸阅读:对于没有被详细介绍的所有材料,都有更多的信息和相关材料的链接。

实用性第一:解决强化学习的一切问题都是值得一提的。 本课程涵盖了技巧和启发。

Git-course:注意到一个公式中的拼写错误? 使代码更可读? 做了一个替代框架的版本? 找到一个有用的链接? 知道如何让课程更好? 在这里可解决这些问题。

除了学习本课程之外,您还可以为此做出贡献:

  • 提pull_request把好的资料放到./week*/README.md文件;
  • 发现错误、创建问题并提交pul_request,如果能解决问题就更好了;
  • 通过pull-requests将赋值转换为不同的框架和版本(tensorflow,pytorch,rllab,py2 / 3兼容性等);
  • 如果您碰巧知道答案,请在聊天室中回答问题并提出建议;

▌链接



有关更多信息:GitHub

https://github.com/yandexdataschool/Practical_RL

链接到演讲幻灯片:点击这里

https://yadi.sk/d/loPpY45J3EAYfU

在线学生生存指南:点击这里

https://github.com/yandexdataschool/Practical_RL/wiki/Online-student's-survival-guide

原文链接:https://www.techleer.com/articles/460-practical_rl-reinforcement-learning-for-seq2seq-pytorch-tensorflow-theano/

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“RLPP” 就可以获取 课程全部PPT下载链接~

▌第一次课PPT详细内容



原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-01-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

最适合中国开发者的深度学习框架:走向成熟的PaddlePaddle 1.0

自深度学习以分层逐步学习的奇思妙想崛起以来,深度学习框架就在不停地发展。在 AlexNet 还没有携带深度学习亮相 ImageNet 之前,由蒙特利尔大学 LI...

10530
来自专栏机器之心

伯克利星际争霸II AI「撞车」腾讯,作者:我们不一样

深度强化学习已经成为获取有竞争力游戏智能体的有力工具,在 Atari(Mnih et al. 2015)、Go(Silver et al. 2016)、Mine...

10720
来自专栏iOSDevLog

人工智能-总结

29860
来自专栏数值分析与有限元编程

高斯消去法解方程组及Python实现

Python 是一种高级计算机程序设计语言。对于初学者和完成普通任务, Python 语言是非常简单易用的。 对于方程组Ax=b,增广矩阵为[A b]。第一次消...

69270
来自专栏新智元

【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

【新智元导读】百度IDL研究员徐伟、余昊男、张海超提出了一个新的框架,通过多任务强化学习和零数据学习,让智能体在没有先验知识的情况下,自己学会了结合语言和视觉两...

45990
来自专栏机器之心

业界 | 英特尔开源nGraph编译器:从多框架到多设备轻松实现模型部署

选自ai.intel 作者:Scott Cyphers 机器之心编译 参与:刘晓坤、李亚洲 近日,英特尔的人工智能产品团队宣布开源 nGraph,这是一个面向各...

39780
来自专栏人工智能LeadAI

关于Deep Neural Networks for YouTube Recommendations的一些思考和实现

论文 Deep Neural Networks for YouTube Recommendations 来自google的YouTube团队,发表在16年9月的...

1.1K30
来自专栏AI科技评论

视频 | 英特尔实验室让 AI 在伸手不见五指的夜里也能拍出精彩照片

本文为雷锋字幕组编译的技术博客,原标题 AI is Taking Low-Light Photography to the Next Level,作者为 MIC...

12720
来自专栏智能计算时代

机器学习在行业应用中的案例研究

原文作者:微软雷德蒙研究院首席研究经理Chris Burges 译者:陈彬 大家好,我是Chris Burges。在我于微软14年以及此前在贝尔实验室14年的科...

27970
来自专栏BestSDK

谷歌推出“Federated Learning”,一种全新的机器学习模式

传统机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里。谷歌等云服务巨头还建设了规模庞大的云计算基础设施,来对数据进行处理。现在,为利用移动设备上的...

660100

扫码关注云+社区

领取腾讯云代金券