因为使用了自由能理论,dreamer系列是自由能理论的一个实现及大量的工程迭代优化,请看分析:
论文:Learning Latent Dynamics for Planning from Pixels是dreamer系列的前传论文(参考1) ,其公式:
论文:A step-by-step tutorial on active inference and its application to empirical data 部分自由能相关的定义公式:
仔细比较两者的公式,可以看出两者优化的目标是相同的,公式的意义在自由能中也做了详细的解读,而且有很多的变形和不同的含义(推荐文末参考):
论文:Learning Latent Dynamics for Planning from Pixels 其他公式及推导:
另外planet的确定与随机的区分实现:
类似STDP里面的STP和LTP长短可塑记忆。(参考2)
相关参考:
1 论文精选:Dreamer系列文章详细解读(PlaNet, Dreamer, DreamerV2, DreamerV3)
主动推理 与 信念-愿望-意图 (BDI) 介绍自由能与心理学概念的联系