openAi HER 算法运行流程学习

CreateAMind

发布于 2018-07-20 17:11:48

72100

代码可运行

文章被收录于专栏：CreateAMindCreateAMind

运行总次数：0

代码可运行

debug render：

1 环境算法初始化

机械臂位置init

环境变量状态空间

agent 强化学习算法初始化

依赖初始化her

her 核心

policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)

2 ddpg算法 nn初始化

policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)

网络结果算法 loss init

ddpg buff init

ddpg 初始化完成

3 rollerworker init；

env init

全部init ok

4 train

高层逻辑：

运行时训练 ---算法逻辑及初始化

5 数据收集，环境step运行

环境step

action

if self.compute_Q:
    u, Q = policy_output
    Qs.append(Q)
else:
    u = policy_output

policy_output = self.policy.get_actions

多目标相关： ag_new ag,

fechenv:

上面函數的實現：

reward计算：

adam 算法实现：

6 数据收集后处理：

for _ in range(n_cycles):
    episode = rollout_worker.generate_rollouts()
    policy.store_episode(episode)
    
很多数据相关的处理：

her数据处理：

数据OK，然后训练参考5 train。

大致逻辑如此。

S

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-04-20，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

openAi HER 算法运行流程学习

openAi HER 算法运行流程学习

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐