就像Q学习一样,我们有奖励反馈,这是否意味着代理需要提前知道?
发布于 2019-12-11 00:19:39
代理不需要具有关于奖励功能的知识。但它每走一步都应该得到奖励。请注意,在这一集结束之前,我们可以没有奖励。术语奖励反馈意味着每个转换都有一定的标量值。
https://stackoverflow.com/questions/59233299
相似问题