专栏首页CreateAMindSQN算法效果及代码: Breakout-ram-v4 打砖块

SQN算法效果及代码: Breakout-ram-v4 打砖块

先看跑CartPole-v0的效果(实在是太简单了。。。)

SQN:颤抖吧,CartPole!

视频内容

再看LunarLander-v2的效果(也是比较简单了。。。),AverageEpRet就是不上300... : (

视频内容

最后Breakout-ram-v4的效果(通关无压力。。。)

可以看下面视频最后打完无砖块,可以看到864分即最高分。

视频内容

并没有调到最优,只是为了验证自己的算法,也没有使用视频版本的Breakout。

SQN (Soft Q Network )是基于Q-value的强化学习算法,伪代码及源代码详见createamind代码库。

代码:https://github.com/createamind/DRL

本文分享自微信公众号 - CreateAMind(createamind)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 关于深度学习的机理,优化和网络结构的一些个人观点

    博士一把年纪,理论物理已经没心读下去了,不知廉耻来知乎卖萌,还是深度学习卖萌,才转行半年多就敢出来卖,好羞耻呀~喵~

    用户1908973
  • edward-tensorflow之上的深度概率编程框架-论文入门介绍

    Probabilistic modeling is a powerful approach for analyzing empirical informatio...

    用户1908973
  • lecun-20161209-nips-能量模型GAN

    第二部分视频预测个人觉得lecun论文不如这篇论文:运动信息向量的神经网络学习 code、ppt、视频ok

    用户1908973
  • 什么是OTT广告?它又是如何工作的呢?

    有线电视正在衰落,在便利性和覆盖范围方面严重输给了流媒体。2016年第三季度OTT(over-the-top)设备的视频广告观看量同比增长63%,预计这一趋势将...

    iCDO互联网数据官
  • 面试现场如何实现链表的逆序?

    前几天一位小伙伴去面试,被要求现场写如何实现链表的逆序?写完一种问还有没有其他方式?

    Java后端技术全栈
  • “365算法每日学计划”:06打卡-单向循环链表

    单向循环链表是单链表的另一种形式,其结构特点是链表中最后一个结点的指针不再是结束标记,而是指向整个链表的第一个结点,从而使单链表形成一个环。

    好好学java
  • 视频剪辑什么鬼?Python 带你高效创作短视频

    近两年,抖音、快手将短视频推到风口浪尖上,要生产出高质量的视频,离不开视频剪辑这一环节;在全民剪片浪潮中,大众使用最多的剪辑软件如:Pr、FCPX、剪印、Vue...

    AirPython
  • log4net记录日志到数据库自定义字段

    public string Mobiles { get; set; }

    guokun
  • JAVA源码走读(一) HashMap与ArrayList

    HashMap是基于哈希表的Map接口的实现。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变...

    用户3003813

扫码关注云+社区

领取腾讯云代金券