广东工业大学陈辞教授研究团队,联合何梁何利科技进步奖获得者/国家杰青谢胜利教授、新加坡工程院院士Lihua Xie教授、美国工程院院士Yilu Liu教授、以及美国发明家学院院士Frank L. Lewis教授,在《国家科学进展》(National Science Open, NSO)上发表研究论文,提出了“离散时间奖励”的新概念,并以此构建了数据驱动的高效决策学习框架,揭示了离散时间奖励指导发现连续时间动态系统的最优决策律,从而突破了现有积分强化学习框架中计算复杂度高的难题。该项研究为理解和优化大规模复杂系统的行为状态提供了高效的计算认知工具。
奖励是强化学习中的核心概念,寻找能够解释动态系统行为决策的奖励一直是一个公开挑战。该研究创新性地将状态导数反馈回学习过程,从而建立了基于离散时间奖励的强化学习分析框架。该框架与现有的积分强化学习框架有本质区别。在离散时间奖励的指导下,行为决策律的搜索过程分为两个阶段:前馈信号学习和反馈增益学习。
基于离散时间奖励的连续时间动态系统强化学习算法框架
研究者发现:使用基于离散时间奖励的技术,可以从动态系统的实时数据中搜索连续时间动态系统的最优决策律。将上述方法应用于电力系统状态调节,成功实现了输出反馈优化设计。这一过程消除了识别动态模型的中间阶段,并通过去除已有积分强化学习框架中的奖励积分器算子,显著提高了计算效率。
在离散时间奖励指导下,连续时间最优决策律的数据驱动计算方法
这项研究成功利用离散时间奖励指导发现连续时间动态系统的优化策略,开辟了强化学习反馈控制的新领域,并且创新性地构建了一种理解和改善动态系统的计算工具,可在自然科学、工程学以及社会科学领域发挥重要作用。
该工作得到了国家自然科学基金、广东省基础与应用基础研究基金等项目的支持。
领取专属 10元无门槛券
私享最新 技术干货