NIPS的最佳论文 强化学习Value iteration Network 及代码

TensorFlow实现:https://github.com/TheAbhiKumar/tensorflow-value-iteration-networks

下面文章作者 https://www.zhihu.com/people/ikerpeng/

代码实现介绍:

Value Iteration Networks in TensorFlow

Tamar, A., Wu, Y., Thomas, G., Levine, S., and Abbeel, P. Value Iteration Networks. Neural Information Processing Systems (NIPS) 2016

This repository contains an implementation of Value Iteration Networks in TensorFlow which won the Best Paper Award at NIPS 2016. This code is based on the original Theano implementation by the authors.

Training

  • Download the 16x16 and 28x28 GridWorld datasets from the author's repository. This repository contains the 8x8 GridWorld dataset for convenience and its small size.

python3 train.py

If you want to monitor training progress change config.log to True and launch tensorboard --logdir /tmp/vintf/. The log directory is /tmp/vintf/ by default, but can be changed in config.logdir. The code currently runs the 8x8 GridWorld model by default.

The 8x8 GridWorld model converges in under 30 epochs with about ~98.5% accuracy. The paper lists that it should be around 99.6% and I was able to reproduce this with the Theano code. The TensorFlow model is not perfect as NaNs result when training with the same parameters as the Theano implementation on the 16x16 and 28x28 domain.

Dependencies

  • Python >= 3.5
  • TensorFlow >= 0.12
  • SciPy >= 0.18.1 (to load the data)

Datasets

  • The GridWorld dataset used is from the author's repository. It also contains Matlab scripts to generate the dataset. The code to process the dataset is from the original repository with minor modifications under this license
  • The model was also originally tested on three other domains and the author's original code will be released eventually
    • Mars Rover Navigation
    • Continuous control
    • WebNav

Resources

原文发布于微信公众号 - CreateAMind(createamind)

原文发表时间:2017-02-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python中文社区

ALI的Tensorflow炼成与GAN科普

專 欄 ❈那只猫,Python中文社区专栏作者,Python中文社区新Logo设计人,纯种非CS科班数据分析人,沉迷Keras。在Cambridge做了点小事...

236100
来自专栏fangyangcoder

数字图像处理之傅里叶变换

                                                        by方阳

30120
来自专栏fangyangcoder

使用颜色空间进行图像分割

原文地址:https://realpython.com/python-opencv-color-spaces/

1.2K30
来自专栏一棹烟波

全景图转小行星视角投影原理详解

全景图是2:1比例的图片,一般是多张图像拼接而成。全景图2:1的比例可以很方便的映射到球面,而球坐标可以很方便的实现各种有趣的投影。比如小行星,水晶球,局部透视...

20020
来自专栏专知

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【导读】专知内容组整理了最近五篇信息抽取(Information Extraction)相关文章,为大家进行介绍,欢迎查看! 1.Joint Recogniti...

420100
来自专栏社区的朋友们

3D 图形学基础 (下)

本文主要针对一些对3D有兴趣的同学,普及图形学知识,不涉及深入的技术探讨和样例介绍。对于不是从事相关开发的同学也能了解相关的知识。

90710
来自专栏AI研习社

基于 Tensorflow eager 的文本生成,注意力,图像注释的完整代码

我总是发现生成和序列模型令人着迷:他们提出的问题与我们刚开始学习机器学习时常遇到的问题不同。当我第一次开始学习ML时,我学了分类和回归(和大多数人一样)。这些帮...

15920
来自专栏有趣的Python和你

sklearn调包侠之KNN算法

20250
来自专栏大数据挖掘DT机器学习

决策树案例:基于python的商品购买能力预测系统

1 决策树/判定树(decision tree) ---- 1 决策树(Dicision Tree)是机器学习有监督算法中分类算法的一种,有关机器学习中分类和...

79570
来自专栏AI研习社

迁移学习:如何将预训练CNN当成特征提取器

深度学习的魅力在于预训练好的模型能够对完全不同的数据集进行分类。这种能力内用了这些深度神经网络结构(在ImageNet数据集上进行过训练)的预训练权重并把其应用...

48660

扫码关注云+社区

领取腾讯云代金券