代码主结构
在做每一个强化学习的时候, 我们最好先规划好要怎么分解这一个 task。一般来说我们尽量不要把所有代码 (环境, 强化学习算法, 学习主循环) 放在一个脚本中。
a = rl.choose_action(s) # RL 选择动作
s_, r, done = env.step(a) # 在环境中施加动作
中, 我们必须有这样几个 function 和 attribute。
rl.py
rl.choose_action(s)
rl.store_transition(s, a, r, s_)
rl.learn()
rl.memory_full
env.py
env.reset
所以你可以另外创建一个 env.py 的脚本, 先写好下面这个 ArmEnv 的 class。 然后给他加上上面提到的功能。