CreateAMind

576 篇文章
33 人订阅

全部文章

用户1908973

The introduction of distributed reinforcement learning framework

752
用户1908973

Shreya Gherani:BERT庖丁解牛(Neo Yan翻译)

BERT是双向转换器(Bi-Transformer)的缩写。这是谷歌在2018年末开发并发布的一种新型语言模型。BERT等经过预处理的语言模型在问答、命名实体识...

491
用户1908973

分布式并行架构Ray介绍

Ray is a fast and simple framework for building and running distributed applicat...

602
用户1908973

金句频频:用信息瓶颈的迁移学习和探索;关键状态

We present a hierarchical reinforcement learning (HRL) or options framework for ...

813
用户1908973

R2D2算法Buffer数据结构复现

https://mp.weixin.qq.com/s/KoFuCePBNPCXGWKpAy_wjw

592
用户1908973

强化学习异步分布式训练实现

本文介绍基于Tensorflow的强化学习off policy算法的分布式实现,包括多机共享replay buffer。分布式 TensorFlow 允许我们在...

643
用户1908973

R2D2算法介绍

Reinforcement Learning (RL) has seen a rejuvenation of research interest recentl...

612
用户1908973

Dynamics-Aware Unsupervised Discovery of Skills 笔记 v2

关键词:model-base、 model-free、 entropy 、mutual-info、 abstract 、skill-action、 goal-...

741
用户1908973

DDPG, TD3, SAC Quick Review

611
用户1908973

PLANET+SAC代码实现和解读

原先设计的取O1...O49 和O2.....O50的方式有一个问题,永远sample不到done = true的情况。 所以我让env在don...

822
用户1908973

Dynamics-Aware Unsupervised Discovery of Skills 笔记

关键词:model-base、 model-free、 entropy 、mutual-info、 abstract 、skill-action、 goal-...

814
用户1908973

A3C原理和代码解析

完整代码地址:https://github.com/dgriff777/a3c_continuous

833
用户1908973

Data Analysis

Now a days, we run a lot experiment based on spinuping(https://spinningup.openai...

803
用户1908973

Episodic memory 认知笔记

https://en.wikipedia.org/wiki/Episodic_memory

645
用户1908973

DIVERSITY IS ALL YOU NEED: 充满睿智的论述

互信息从state action 到 state skill;action到skill就是提升一级抽象

975
用户1908973

强化学习中的情景好奇心

https://github.com/google-research/episodic-curiosity

601
用户1908973

详解PLANET代码(tensorflow)如何加入SAC功能

SAC 算法本质是经过熵强化的回报值最大化算法。在我们单独跑的其他实验中,包括SAC + RNN表现出很好的性能,1.replay buffer使它的采样效率增...

912
用户1908973

从Q-Learning到A3C 强化学习基础快速复习

https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html

732
用户1908973

Key note for Planet

If you have any queston, you can contact me by email(zlw21gxy@gmail.com), or lea...

773
用户1908973

Represent learning

593

扫码关注云+社区

领取腾讯云代金券