专栏首页CreateAMindPlaying MontezumaRevenge with RND 含视频

Playing MontezumaRevenge with RND 含视频

MontezumaRevengeNoFrameskip-v4'

https://github.com/openai/random-network-distillation

https://blog.openai.com/reinforcement-learning-with-prediction-based-rewards/

Our team running a new experiment on MontezumaRevenge with RND model, which successfully reach 17 rooms. Watching that agent collecting keys and using the sword. You got to question, what is the real definition of intelligence.

使用replayer.py运行默认在/tmp下面的日志目录即可出现下面的训练记录plot video show or save video

up is actual is videos but this is only one frame

Demo

Start training

本文分享自微信公众号 - CreateAMind(createamind)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 代码:Zero-Shot Visual Imitation

    用户1908973
  • A3C原理和代码解析

    完整代码地址:https://github.com/dgriff777/a3c_continuous

    用户1908973
  • 深度学习图像编辑开源软件

    代码及论文:https://github.com/junyanz/iGAN 或阅读原文

    用户1908973
  • SAP S/4HANA系统Fiori UI上Adapt UI按钮显示与否的控制逻辑

    I use the same user to log on the same system, however some times the Adapt UI b...

    Jerry Wang
  • DAY54:阅读Assertion

    Assertion is only supported by devices of compute capability 2.x and higher. It ...

    GPUS Lady
  • Python每天五分钟-输入与输出

    计算机程序都是用来服务某个特定任务的,有了输入,用户就可以通过键入不同的信息告知计算机程序该如何处理,有了输出,就可以告知用户程序运行的结果

    用户2475223
  • 人体运动预测的多任务非自回归模型(CS)

    人体运动预测是一个典型的序列到序列的问题,旨在根据给定的过去人体骨骼来预测未来的人体骨骼。因此,在探索不同的基于RNN的编码器-解码器体系结构上学术界已进行了大...

    Pamela_Lin
  • 微信开发系列之六 - 使用微信OAuth2 API读取微信用户信息,显示在SAP UI5里

    In previous blog Wechat development series 5 – embedded your UI5 application to ...

    Jerry Wang
  • SAP S/4 HANA新变化-MM物料管理

    Co-Deployment of SAP SRM 集成SRM The functional scope of SAPSupplier Relationship...

    SAP最佳业务实践
  • Hibernate “Callback methods”和“Entity listeners” 使用详解(注解方式)

    Callback methods和Entity Listeners是Hibernate特别有用的特性,有时候会带来很多意想不到的功效哦!所以这里花点时间整理一下...

    飞奔去旅行

扫码关注云+社区

领取腾讯云代金券