debug render:

1 环境 算法初始化


机械臂位置init

环境变量状态空间

agent 强化学习算法 初始化


依赖初始化her



her 核心

policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)2 ddpg算法 nn初始化
policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)
网络结果 算法 loss init



ddpg buff init
ddpg 初始化完成
3 rollerworker init;
env init

全部init ok
4 train

高层逻辑:
运行时训练 ---算法逻辑及初始化





5 数据收集,环境step运行


环境step

action
if self.compute_Q:
u, Q = policy_output
Qs.append(Q)
else:
u = policy_outputpolicy_output = self.policy.get_actions

多目标相关: ag_new ag,
fechenv:

上面函數的實現:


reward计算:


adam 算法实现:

6 数据收集后处理:
for _ in range(n_cycles):
episode = rollout_worker.generate_rollouts()
policy.store_episode(episode)
很多数据相关的处理:
her数据处理 :

数据OK,然后训练 参考5 train。
大致逻辑如此。
S