CreateAMind

579 篇文章
33 人订阅

全部文章

用户1908973

互信息相关公式整理

https://navneet-nmk.github.io/2018-08-26-empowerment/ and paper;

70
用户1908973

RL中的default policy和decision states及options(skill)是什么关系?

最近几篇论文都提出了学习一个默认的减轻认知负担的default policy;就像人默认情况直走即可,特殊情况才需要调整:有人,有车,有拐弯等;特殊情况就是de...

50
用户1908973

RL中的default policy 和 decision states 及 options(skill)是什么关系?

最近几篇论文都提出了学习一个默认的减轻认知负担的default policy;就像人默认情况直走即可,特殊情况才需要调整:有人,有车,有拐弯等;特殊情况就是de...

50
用户1908973

The introduction of distributed reinforcement learning framework

792
用户1908973

Shreya Gherani:BERT庖丁解牛(Neo Yan翻译)

BERT是双向转换器(Bi-Transformer)的缩写。这是谷歌在2018年末开发并发布的一种新型语言模型。BERT等经过预处理的语言模型在问答、命名实体识...

491
用户1908973

分布式并行架构Ray介绍

Ray is a fast and simple framework for building and running distributed applicat...

602
用户1908973

金句频频:用信息瓶颈的迁移学习和探索;关键状态

We present a hierarchical reinforcement learning (HRL) or options framework for ...

813
用户1908973

R2D2算法Buffer数据结构复现

https://mp.weixin.qq.com/s/KoFuCePBNPCXGWKpAy_wjw

592
用户1908973

强化学习异步分布式训练实现

本文介绍基于Tensorflow的强化学习off policy算法的分布式实现,包括多机共享replay buffer。分布式 TensorFlow 允许我们在...

643
用户1908973

R2D2算法介绍

Reinforcement Learning (RL) has seen a rejuvenation of research interest recentl...

612
用户1908973

Dynamics-Aware Unsupervised Discovery of Skills 笔记 v2

关键词:model-base、 model-free、 entropy 、mutual-info、 abstract 、skill-action、 goal-...

741
用户1908973

DDPG, TD3, SAC Quick Review

611
用户1908973

PLANET+SAC代码实现和解读

原先设计的取O1...O49 和O2.....O50的方式有一个问题,永远sample不到done = true的情况。 所以我让env在don...

862
用户1908973

Dynamics-Aware Unsupervised Discovery of Skills 笔记

关键词:model-base、 model-free、 entropy 、mutual-info、 abstract 、skill-action、 goal-...

814
用户1908973

A3C原理和代码解析

完整代码地址:https://github.com/dgriff777/a3c_continuous

833
用户1908973

Data Analysis

Now a days, we run a lot experiment based on spinuping(https://spinningup.openai...

813
用户1908973

Episodic memory 认知笔记

https://en.wikipedia.org/wiki/Episodic_memory

645
用户1908973

DIVERSITY IS ALL YOU NEED: 充满睿智的论述

互信息从state action 到 state skill;action到skill就是提升一级抽象

975
用户1908973

强化学习中的情景好奇心

https://github.com/google-research/episodic-curiosity

601
用户1908973

详解PLANET代码(tensorflow)如何加入SAC功能

SAC 算法本质是经过熵强化的回报值最大化算法。在我们单独跑的其他实验中,包括SAC + RNN表现出很好的性能,1.replay buffer使它的采样效率增...

922

扫码关注云+社区

领取腾讯云代金券