文章/答案/技术大牛

发布

Seq2seq强化学习实战

文章来源：企鹅号 - 专知

【导读】本文是Kirti Bakshi在1月14日写的关于其强化学习课程的一个介绍，作者首先简单介绍了机器学习的缺点，以及为什么使用深度学习。然后讲述了其开设的课程的主要内容，包括：强化学习基础、实用的算法、实用案例等内容。文末给出了课程的GitHub链接、slide链接、指南地址，有兴趣的小伙伴可以下载仔细研究一下。

Practical_RL: Reinforcement learning for seq2seq (pytorch, tensorflow, theano)

在过去的几十年里，机器学习方法发展迅速。人们可以教算法怎么去理解，找到图像上的对象，翻译自然语言以及甚至生成文本和语音，甚至如果给出足够的标记数据，则可以在因特网上做信息检索（超过人类水平或与人类同水平）。前面唯一的缺点是，并不是每个问题都可以被认为是学习X - > y转换（拟合一些参考标签）。

▌关于本课程：

例如我们发现，在人们说话、学习、玩新的游戏、在城市环境中导航、设计登陆页面、骑自行车、甚至建立强化学习代理时，你不止是简单地教科书式地记住那些最优方案的例子。这些问题的共同之处在于，他们都可以通过反复实验的方法来解决：坚持让那些不好的方面影响较小。

更常见的是，这些问题可以在不同程度上被自动解决。所以在这里我们要做的就是在整个课程中训练机器使其可以进行创造性的解决方案。

MOOC的主要重点是对“机器”等life-size问题进行训练，称为强化学习（RL）算法。

▌菜单包括：

RL基础

实用算法

“黑客”工程

实例学习

新鲜好文章

内容包括各种各样的资料，从机器人和游戏到chatbots（聊天机器人），再到金融。该课程在HSE（俄语）校园内进行授课，一直保持对学生友好（包括英语和俄语）。

▌为了从这门课程中获益，需要了解什么？

本课程假定学习者已经掌握以下内容：

代数，微积分（向量，矩阵，基本积分）

概率（贝叶斯定理，期望，方差）

优化（梯度下降）

基本的机器学习（线性模型，决策树）

编码（python，numpy，sklearn）

还有一件事要知道，这门课程与深度学习的方法有着紧密的联系。没有严格的要求有神经网络的经验，因为课程将使用Theano和Lasagne进行速成课程，但是知道如何使用神经网络一定会派上用场的。

我们的目标是介绍给学生现代人工智能研究的一个突出领域：强化学习。强化学习更多的是关于人类如何在现实中学习，与有监督学习和无监督学习有很大不同。

▌声明：

延伸阅读：对于没有被详细介绍的所有材料，都有更多的信息和相关材料的链接。

实用性第一：解决强化学习的一切问题都是值得一提的。本课程涵盖了技巧和启发。

Git-course：注意到一个公式中的拼写错误？使代码更可读？做了一个替代框架的版本？找到一个有用的链接？知道如何让课程更好？在这里可解决这些问题。

除了学习本课程之外，您还可以为此做出贡献：

提pull_request把好的资料放到./week*/README.md文件;

发现错误、创建问题并提交pul_request，如果能解决问题就更好了;

通过pull-requests将赋值转换为不同的框架和版本（tensorflow，pytorch，rllab，py2 / 3兼容性等）;

如果您碰巧知道答案，请在聊天室中回答问题并提出建议;

▌链接

有关更多信息：GitHub

https://github.com/yandexdataschool/Practical_RL

链接到演讲幻灯片：点击这里

https://yadi.sk/d/loPpY45J3EAYfU

在线学生生存指南：点击这里

https://github.com/yandexdataschool/Practical_RL/wiki/Online-student's-survival-guide

发表于: 2018-01-172018-01-17 00:02:33
原文链接：http://kuaibao.qq.com/s/20180117G00Q8800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Seq2seq强化学习实战

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐