CreateAMind

617 篇文章
39 人订阅

全部文章

用户1908973

SDDPG = SAC1

在上文指出:“基于policy optimization的强化学习算法的数学基础都是policy gradient 定理(PGT),比如PG, A2C, A3C...

7430
用户1908973

SPG定理与算法介绍

在传统的policy optimization强化学习中,通常会手加一个动作熵作为探索项,然后对该项的权重因子调参以达到增加探索的目的。然而“In practi...

8830
用户1908973

NVAE介绍

In this paper, we aim to make VAEs great again by architecture design. We propos...

7620
用户1908973

GTrXL架构介绍 (Transformer在RL中的应用)

论文链接:https://arxiv.org/pdf/1910.06764.pdf

10620
用户1908973

Meet CreateAMind Cuju ( 谷歌足球 SOTA )

谷歌足球(Google Research Football)是Google Brain 开发的一个足球仿真策略游戏。

12730
用户1908973

SQN算法介绍

SQN是Soft Q Network的缩写,是基于Q-value的强化学习算法,"Soft"指代的是熵正规化( entropy regularization )...

11620
用户1908973

脑图整理管理笔记1+

原脑图文件 链接: https://pan.baidu.com/s/13KsqtDLJTsXDS7VOUEweWw 提取码: h3as

11220
用户1908973

脑图整理管理笔记1

原脑图文件链接: https://pan.baidu.com/s/1AkU2ktwogrCAup6vwlKPvQ 提取码: jzib

8520
用户1908973

强化学习框架 IMPALA 介绍

In this work we aim to solve a large collection of tasks using a single reinforc...

17410
用户1908973

Quantum Annealing of VRP with Time, State and Capacity

We propose a brand-new formulation of capacitated vehicle routing problem (CVRP)...

8110
用户1908973

开源ALNS 自适应大邻域搜索(Adaptive Large Neighborhood Search)

This package offers a general, well-documented and tested implementation of the ...

39730
用户1908973

Convolutional Tsetlin Machine tutorial

https://github.com/cair/convolutional-tsetlin-machine

11220
用户1908973

可解释的AI

https://github.com/cair/pyTsetlinMachineParallel#interpretability-demo

10810
用户1908973

使用Ray并行化你的强化学习算法(三)

我们先看算法的核心部分:model,包含了TensorFlow建图,计算loss,训练和测试。

17110
用户1908973

使用Ray并行化你的强化学习算法(二)

spinningup给新手提供了几个重要算法的实现,具有很好的参考价值。除了SAC外,其他on policy算法都使用MPI进行并行化,唯独SAC没有并行实现。...

18010
用户1908973

使用Ray并行化你的强化学习算法(一)

强化学习算法的并行化可以有效提高算法的效率。并行化可以使单机多cpu的资源得到充分利用,并行化也可以将算法中各个部分独立运行,从而提高运行效率,如将环境交互部分...

56220
用户1908973

从更统一的视角分析VAE

With an overall view of VAE, we can extend standard VAE loss in the reconstructi...

11710
用户1908973

一起测智商——解耦真的对下游任务有帮助吗

先来一道经典的智商测试题,根据左边八个小方块的规律从右边的六个小方块中选出一个填补空缺。

19720
用户1908973

MPI入门 (Part 3/3)

Message Passing Interface (MPI) is a standardized and portable message-passing s...

8210
用户1908973

Unsupervised learning and generative models

来自deepmind大神的演讲,https://www.youtube.com/watch?v=H4VGSYGvJiA,首先是五种对于数据分布的操作,非常有借鉴...

11240

扫码关注云+社区

领取腾讯云代金券