OpenAI开课了!深度强化学习最全课程包,教程代码一网打尽

嗨喽,你可爱的小编小鱼儿又来了,每天废寝忘食的为漂亮的你搜罗各种你感兴趣的话题和新闻。每天辛苦上班的你,上学的你,睁开眼就开始打开手机浏览各种新闻,小编的愿望就是可以为你找到搞笑的,新奇的热点话题,还有娱乐圈里的最新动态,希望小编的工作可以让你的一天充满快乐。

在DEEP RL中迈出第一步

在博客中,OpenAI强调了深度强化学习的重要性,虽然市面上有非常多的资源帮助人们快速学习这些知识。但是深入下去还是会遇到非常多的困难。OpenAI发布的Spinning Up能够帮助人们学习使用这些人工智能技术并培养对人工智能的直觉。

据悉,这个项目的设计灵感,来自于和OpenAI学者和研究员计划的合作。OpenAI观察到,机器学习非常小白的玩家,如果在一开始能够获得正确的指导和资源,就会在短时间大幅度提升他的专业能力。

Spinning Up in Deep RL 还能够为一些跨学科的领域提供帮助,例如人工智能安全,不光需要强化学习,还需要其他学科技能的辅助。

OpenAI认为,了解RL算法最好的方法是在代码中运行一遍,通过借助Spinning Up,代码编写变得会更加简单:

代码示例:python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

Spinning Up实现了与Classic Control,Box2D或MuJoCo任务套件中的Gym环境兼容。OpenAI还为新手设计了Spinning Up的代码。简洁,友好,易于学习的设计使得小白更容易上手。OpenAI目标是避免通常存在于深度RL库中的抽象和混淆层。并且对代码进行了注释,以便编程者更加了解所使用的代码。

Spinning Up in Deep RL项目 主要由以下几部分组成:

RL术语,各种算法和基本理论的简短介绍。一篇关于如何成长为RL研究员的文章。按主题分类的重要论文的精选清单。详细记录了关键算法的文档、使用其可以独立实现代码,包括: Vanilla Policy Gradient (VPG), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3), and Soft Actor-Critic (SAC).当然,为了实践需要,还有一些必不可少的练习。

OpenAI开启全球教育计划

OpenAI也通过这一项目宣告了一个全球教育计划的开启,“Spinning Up in Deep RL只是OpenAI新教育计划的一部分,在一定程度上是对OpenAI愿景的延伸:创建一个全球的社区,共同应对AGI的挑战。OpenAI希望利用这个项目帮助迅速推进安全且广泛有益的人工智能。

2019年2月2日,在旧金山OpenA将会I举办一场关于Spinning Up in Deep RL的研讨会。研讨会将包括3小时的讲座和5小时的半结构化黑客攻击,项目开发和分组会议,研讨会期间OpenAI技术人员全程指导。

奉上工作坊报名链接,旧金山的读者可以顺路一看哦:

https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform

OpenAI也欢迎更多人参与这一教育项目,并开放了相关工作职位

https://openai.com/jobs/

OpenAI称还将与其他组织合作,帮助他们开展教育计划,包括加州大学伯克利分校的人类兼容人工智能中心(CHAI)。

最后,附上这一课程项目的完整内容表

感谢可爱善良的各位阅读小鱼儿的文章,如果各位觉得小编的文章为你带来了欢笑,让你和同学,同事尽情八卦了半天,就给小编一个鼓励吧,动动你的小手点个赞或者评论一下哦!如果觉得小编说的不对,也在下方疯狂吐槽吧,小编会努力改正的。w

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181109A1518X00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券