首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

学界 | 价值传播网络,在更复杂的动态环境中进行规划的方法

规划是许多领域人工智能体的关键组成部分。然而,经典规划算法的局限性在于,对于每种可能的规划实例,人们都需要知道如何为其搜索最优(或至少合理的)方案。环境动态和状态复杂度的增加给规划的写作人员制造了困难,甚至使其完全不切实际。「学习做规划」旨在解决这些问题,这也就是为什么「学习做规划」一直是活跃研究领域的原因之一 [Russell et al., 1995, Kaelbling et al., 1996]。出于实用性考虑,我们提出,学习规划者的方法应该有至少两个属性:算法的轨迹应是自由的,即不需要最优规划者的轨迹;算法应该可以泛化,即学习规划者应该能解决同类型但未曾遇到的实例和/或规划期。

01
领券