为什么钟摆代码的观测结果是:cos(θ),sin(θ)和theta_dot?不只是θ和theta_dot?either 1 or 0 according to a threshold (rand.)奖励函数在钟摆代码中定义如下如果钟摆是直立的(有一定的容忍度),那么它的回报就会很高,否则是零?angle_normalise((th)**2 +.1*thdot**2 + .001*(action**2))
# normalize betw
(rotate ang pend))) ; value of ang swings between -30 to +30 ;
虽然钟摆可以正确地移动到一边相反,钟摆的底座是摆动的。错误在哪里?我如何纠正它?
请注意,我只是试图以恒定的速度将钟摆从一端摆动到另一端。我知道这不会是一个真正的钟摆物理上精确的运动模式。