最优性原理表明,对于给定的性能指标,当从状态空间的任意一点出发后,其最优控制的选择仅仅取决于系统在这一点的状态,而与如何到达该状态的系统经历无关,可以将这理解为性能指标函数具有马尔可夫性。
本节介绍如何采用动态规划法求解连续时间系统的最优控制问题,并推导H-J-B方程,最终可以得到连续形式的动态规划算法。
1、连续系统的动态规划最优控制:
被控对象:
初始条件:
终端状态:终瑞时刻 tf 给定、终端状态 x(tf) 自由
控制约束:u(t)∈Ω ,t∈[t0,tf]
性能指标:
目标任务:求最优控制序列 u*(t) 使 J 达到极小值。
若最优控制 u*(t) 和最优状态轨线 x*(t) 都已求出,则最优性能指标 J* 仅与 t0 和 x(t0) 有关。即,J* 是 t0 和 x(t0) 的函数,记作:
所以,连续最优控制问题的最优性原理表述如下:
初始状态为 x(t0) 的最优控制策略 u*[t0,tf] 的后面一部分 u*[t1,tf] (t1>t0) 仍是最优控制策略,而其对应的初始状态是在 [t0,t1] 上应用控制策略 u*[t0,t1] 并由系统状态方程 x_dot=f[x(t),u(t),t] 和初始状态 x(t0)=x0 所求出的 x(t) 。
2、哈密顿-雅可比方程:
对于 [t0,t1] 上的任意时刻 t ,最优性能指标函数为:
假设最优性能指标函数 J*[x(t),t] 存在且连续可微,则上式右侧最后一个式子的第二项可用泰勒展开为:
上式右侧最后一个式子的第一项用积分中值定理得:
把两个表达式带入最优性能指标函数可得连续动态规划的基本方程——哈密顿-雅可比方程:
上式是求解连续动态规划问题的核心公式,建议熟练推导。
3、连续系统的动态规划最优控制算法推导:
下面利用连续动态规划基本方程求解最优控制问题:
首先,求出哈密顿-雅可比方程的等式右侧大括号内部分对 u(t) 的全局最小值,记作:
然后,将上式带入哈密顿-雅可比方程,得到哈密顿-雅可比-贝尔曼方程,简称 H-J-B方程,该方程的边界为:
上面的倒数第一个和第三个方程是本节最优化问题的最优控制和最优性能指标函数的最优值的充分条件。
求出H-J-B方程的解后,即 J*[x(t),t] 是 x(t) 和 t 的已知函数,则将 J* 代入
,可求得控制函数:
然后将上式带入系统状态方程,结合初始条件,即可得到最优轨迹 x*(t) ;
最后,将 x*(t) 带入
,就得到最优控制:
以上就是连续系统的动态规划最优控制算法。
需要说明的是:H-J-B方程是偏微分方程,难以求得其解析解,通常只能求其数值解。
本阶段全套笔记:
【最优控制理论与仿真】
公众号内还有:
【经典控制理论】全套笔记
【现代控制理论】全套笔记
【非线性控制理论】全套笔记
【车辆动力学】全套笔记
后续全套笔记:
【反步控制】(Back-Stepping Control)
【滑模控制】(Sliding Mode Control)
【模型预测控制】(Model Predictive Control)
【自适应控制】(Adaptive Control)
【鲁棒控制】(Robust Control)
【自抗扰控制】(ADRControl)
以及各类车辆数学模型、基于底盘的控制算法实例等内容
期待您的关注、留言、讨论!
领取专属 10元无门槛券
私享最新 技术干货