专栏首页CreateAMindopenAi HER 算法运行流程学习

openAi HER 算法运行流程学习

debug render:

1 环境 算法初始化

机械臂位置init

环境变量状态空间

agent 强化学习算法 初始化

依赖初始化her

her 核心

policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)

2 ddpg算法 nn初始化

policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)

网络结果 算法 loss init

ddpg buff init

ddpg 初始化完成

3 rollerworker init;

env init

全部init ok

4 train

高层逻辑:

运行时训练 ---算法逻辑及初始化

5 数据收集,环境step运行

环境step

action

if self.compute_Q:
    u, Q = policy_output
    Qs.append(Q)
else:
    u = policy_output
policy_output = self.policy.get_actions

多目标相关: ag_new ag,

fechenv:

上面函數的實現:

reward计算:

adam 算法实现:

6 数据收集后处理:

for _ in range(n_cycles):
    episode = rollout_worker.generate_rollouts()
    policy.store_episode(episode)
    
很多数据相关的处理:

her数据处理 :

数据OK,然后训练 参考5 train。

大致逻辑如此。

S

本文分享自微信公众号 - CreateAMind(createamind),作者:zdx3578

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 理解β-Vae中的disentangling

    用户1908973
  • Qzero算法介绍

    1. AlphaZero算法: 算法的核心是把MCTS算法与深度强化学习(DRL)结合起来(使用MCTS算法作为RL的policy improvement机制)...

    用户1908973
  • SDDPG = SAC1

    在上文指出:“基于policy optimization的强化学习算法的数学基础都是policy gradient 定理(PGT),比如PG, A2C, A3C...

    用户1908973
  • 算法妙应用-算法的复杂度

    对于任何一个程序来说,都可以从三个方面进行分析,分别是 输入、处理、输出,也即 IPO(Input、Process、Output),这种分析方法对硬件和软件程序...

    Wizey
  • MySQL(十三)DDL之库和表的管理

    leeqico
  • 逆向一期/009/万能断点找注册码

    等到万事俱备,只差点注册的时候,回到 OD,给万能断点下断,因为这叫万能断点,所以什么也断,如果不是等点注册,会一直断掉程序

    yichen
  • 贪心算法如何贪心

    贪心算法(又称贪婪算法)是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的是在某种意义上的局部最优解。

    每天学Java
  • Gopro Ardunio控制库.2

    C++变量前面加下划线和不加下划线都不会影响对变量的定义,只是风格问题,更喜欢将成员变量或者私有成员变量的前面加上下划线。以表示该变量是某个类的属性。

    云深无际
  • 学好信竞-浅谈信息学竞赛考场策略及程序测试

         本文作者是江苏省常州高级中学吴翼同学发布的信息学竞赛江苏省论文。内容对于大家备考十分有帮助,特分享给同学们,希望在中秋假期给大家的学习增加一点动力!

    清北学堂信息学
  • 一年不到从0到第三,疯读小说还差多久冲第一?

    近日,腾讯拟收购搜狗的消息闹得沸沸扬扬,有的说腾讯看中了搜狗的搜索、也有说看中了输入法,众说纷纭。但无一例外,这些产品背后,突出的是搜狗算法的价值,而腾讯也正是...

    翟菜花

扫码关注云+社区

领取腾讯云代金券