debug render:
1 环境 算法初始化
机械臂位置init
环境变量状态空间
agent 强化学习算法 初始化
依赖初始化her
her 核心
policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)
2 ddpg算法 nn初始化
policy = DDPG(reuse=reuse, **ddpg_params, use_mpi=use_mpi)
网络结果 算法 loss init
ddpg buff init
ddpg 初始化完成
3 rollerworker init;
env init
全部init ok
4 train
高层逻辑:
运行时训练 ---算法逻辑及初始化
5 数据收集,环境step运行
环境step
action
if self.compute_Q:
u, Q = policy_output
Qs.append(Q)
else:
u = policy_output
policy_output = self.policy.get_actions
多目标相关: ag_new ag,
fechenv:
上面函數的實現:
reward计算:
adam 算法实现:
6 数据收集后处理:
for _ in range(n_cycles):
episode = rollout_worker.generate_rollouts()
policy.store_episode(episode)
很多数据相关的处理:
her数据处理 :
数据OK,然后训练 参考5 train。
大致逻辑如此。
S