前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >系列论文简介

系列论文简介

作者头像
用户1908973
发布2018-07-20 14:31:21
5020
发布2018-07-20 14:31:21
举报
文章被收录于专栏:CreateAMindCreateAMind

EL-GAN: Embedding Loss Driven Generative Adversarial Networks for Lane Detection

TuSimple lane detection challenge:检测车道线的比赛http://benchmark.tusimple.ai/#/t/1/leaderboard

GAN思路就是加了一个EmbeddingLoss:

Learning to Decompose and Disentangle Representations for Video Prediction

Feifei Li

视频预测的隐变量分成两部分:

1. Context Embedding:这个Scene的构成元素(如球)

2. Pose Embedding: 这个Scene的构成元素是如何布局的(如球的移动,位置)

然后PoseEmbedding时间上用RNN建模,而ContextEmbedding不变,整体是一个变种的VAE。

A simple neural network module for relational reasoning + Relational Deep Reinforcement Learning

关于Relational Reasoning:

CNN feature map的每一个2d位置作为一个object,两两之间通过g网络得出表示,表示的信息的每一维度蕴含着问题和关系事实的对应,这些信息再加起来通过f网络完成推理得到答案。

应用到Planning:

对于一个BoxWorld,有一个正确的移动位置序列,Agent需要找到这个移动序列。采取Relational的方式去plan:分析整个局面(各个位置移动的先后关系),得到action。

Automatic formation of the structure of abstract machines in hierarchical reinforcement learning with state clustering

考虑一个自动机,每一个状态对应一种行为模式。作者提出从0开始,自动通过分裂状态,连边,加转移条件来形成自动机的结构。每一种hiddenstate对应一个自动机。

Task-Relevant Object Discovery and Categorization for Playing First-person Shooter Games

使用光流(Optical Flow),来直接提取出Segmentation(不用label训练)

然后将这些Segmentation用HOG feature聚类,聚类得到的比如怪物,主人公,墙都分开了。

再分别将这些这些分离的元素送给QLearning进行决策。

Self-Imitation Learning

SIL,直接利用自己已有的好轨迹进行模仿。

个人觉得和HER的能达到的效果是一致的。

Learning Policy Representations in Multiagent Systems

imitation learning来学出policy representations,然后将3种Embedding(最小化 最大化 和模仿)用于多Agent的环境下,使用Policy Embedding来交流。

心得-思考总结-反省: 今天效率较高,看了不少论文,但晚上写代码思路不清晰

明日计划: 1. 写完Candy(Carla 的 VAE+ImitationLearning)代码

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档