前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >openAi HER 算法运行流程学习

openAi HER 算法运行流程学习

作者头像
用户1908973
发布2018-07-20 17:11:48
6380
发布2018-07-20 17:11:48
举报
文章被收录于专栏:CreateAMindCreateAMind

debug render:

1 环境 算法初始化

机械臂位置init

环境变量状态空间

agent 强化学习算法 初始化

依赖初始化her

her 核心

policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)

2 ddpg算法 nn初始化

policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)

网络结果 算法 loss init

ddpg buff init

ddpg 初始化完成

3 rollerworker init;

env init

全部init ok

4 train

高层逻辑:

运行时训练 ---算法逻辑及初始化

5 数据收集,环境step运行

环境step

action

if self.compute_Q:
    u, Q = policy_output
    Qs.append(Q)
else:
    u = policy_output
policy_output = self.policy.get_actions

多目标相关: ag_new ag,

fechenv:

上面函數的實現:

reward计算:

adam 算法实现:

6 数据收集后处理:

for _ in range(n_cycles):
    episode = rollout_worker.generate_rollouts()
    policy.store_episode(episode)
    
很多数据相关的处理:

her数据处理 :

数据OK,然后训练 参考5 train。

大致逻辑如此。

S

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档