[拼音]:zuiyou kongzhi suanfa
[外文]:algorithm for optimal control
用以定出最优控制(见最优控制理论)的具体形式的计算方法。极大值原理和动态规划从理论方面研究了最优控制所应遵循的方程和条件,而最优控制算法则是从计算方面来确定最优控制形式的具体方法和步骤(见最优化方法)。从总体上看,最优控制算法可分为间接法和直接法两大类。对于给定的一类控制问题可由最优控制理论导出用以决定最优控制的条件和方程,可用有关的计算方法求出其解,这类方法称为间接法。对难以定出有关最优控制的条件和方程的一类问题,须用数值方法直接求其近似解,这类方法称为直接法。不管是间接法还是直接法,在大多数情况下,都要借助数值求解算法。随着电子计算机技术的发展,用数值方法求解最优控制问题变得越来越有效和广泛,原来不可行的一些算法已逐渐成为可行。
评价最优控制算法的两个主要问题是:
(1)算法的收敛性或数值稳定性,它是保证计算过程能达到正确结果的前提。
(2)算法的计算复杂性,这对实时控制具有特别重要的意义。一个好的算法应使计算量和存储量尽可能小,以便能由尽可能简单的计算机来实现计算。此外,好的算法还应具有较好的数值稳定性,即计算的结果对初始数据和运算过程的误差不过于敏感,以及处理“病态“问题的能力。典型的最优控制算法有:求解由极大值原理导出的微分或差分方程的两点边值问题的各种算法,对动态规划中的贝尔曼方程进行数值求解的算法,求解线性二次型最优控制问题的黎卡提方程的各种算法,处理控制或状态受约束问题的罚函数法,在控制策略的函数空间中利用搜索寻优或梯度寻优技术和牛顿-拉夫森方法等直接求解非线性系统最优控制问题的算法等。其中,非线性系统的开环最优控制问题和线性二次型最优控制问题的算法应用尤多。
非线性系统的开环最优控制算法这类控制问题的提法是,在非线性系统的状态方程
夶=f(x,u,t), x(t0)=x0, t0≤t≤tf (1)
的约束下,寻找一个控制u(t)使性能指标泛函
(2)
为最小。这里u为m维控制向量函数,x为n维状态向量函数,f为n维向量函数,t0是起始时间,tf为终止时间。性能指标泛函中第一项积分表示与控制过程有关的指标,而第二项K 则表示仅与终态和终止时间有关的指标。
对x和u的变化范围不加限制的情形,可把非线性规划中的共轭梯度法、变尺度法等推广来求解上面给出的问题。其关键在于计算泛函J(u)对于u的梯度墷J(u):
(3)
式中
H(x,u,λ,t)=L(x,u,t)+ λTf(x,u,t) (4)
是哈密顿函数。这里上标T表示转置,而λ是n维伴随向量,它满足方程
(5)
用共轭梯度法求解上述问题的算法为
(1)任选一个初始控制u0,且令i=0。
(2)用ui从t0到tf求积状态方程(1),得到xi(t),后再用ui和 xi从 tf 到t0 反向求积伴随方程(5)以得到λi(t)。再利用ui、xi和λi计算
。
(3)令 gi=H
hi=gi+βi-1hi-1其中βi-1=<gi-gi-1,gi>/<gi-1,gi-1>,h0=g0,而符号<·,·>表示<x,y>=
(xT(t)y(t))dt即两个向量(此例中为x和y)的内积。
(4)若gi=0,停止;否则进行⑤。
(5)用一维搜索法求出μi>0使
J(ui+μihi)=
[J(ui+μhi)|μ>0]
(6)在ui+1=ui+μihi中,令i改为i+1,回到②,重复进行各步。
线性二次型问题的闭环最优控制算法这类控制问题的数学提法是,在线性状态方程
x=Ax+Bu
的约束下,求控制u(t)使二次型性能指标泛函
J(u)=
(xTQx+uTRu)dt
为最小。这里,Q是半正定对称矩阵,R是正定对称矩阵。这个问题的最优控制解的表达式为
u*=-R-1BTPx
其中对称正定矩阵P满足黎卡提代数矩阵方程
ATP+PA-PBR-1BTP+Q=0
在这类最优控制问题的算法中,关键是求解矩阵P,常用的算法有四种。
(1)微分方程法。反向解矩阵黎卡提微分方程
妛+ATP+PA-PBR-1BTP+Q =0, P(tf)=0
其中
,则其稳态解即为所求的黎卡提代数矩阵方程的解阵。
(2)哈密顿矩阵方法。构造哈密顿矩阵
此矩阵的特征值必定不包含纯虚数,且若λ是特征值,则-λ也是特征值。 找到变换阵
使得S-1HS=
其中 Λ是形如
的矩阵的直和,且所有的λi均大于零,则P=S21S
。式中S
表示S11的逆矩阵。
这种算法的另一种形式是先定出哈密顿矩阵 H的特征值,并以具有负实部的所有特征值为零点来组成多项式F(s)。将用H 代替s后得到的矩阵多项式F(H)写成分块形
,则P=F21F
。
这种算法的又一种形式是找到一个正交矩阵
使得
,其中S11的所有特征值均具负实部,而s22的所有特征值均具正实部,则P=U21U
。
(3)迭代解法。将黎卡提代数方程改写为迭代形式
(A-sPi)TPi+1+Pi+1(A-sPi)=-Q-PisPi
其中s=BR-1BT,i=0,1,…。当选择 P0使矩阵A0=A-sP0的特征值均具负实部时,此迭代方程所确定的矩阵序列P0、P1、…是单调收敛的其极限矩阵即是黎卡提代数矩阵方程的对称正定解。
(4)符号函数方法。哈密顿矩阵H的符号函数规定为
这里H0=H,Hi+1=αiHi+(1-αi)H抶。α∈(0,1)称为加速系数,通常将其取为
由SH构成矩阵
则
- 参考书目
- 宫锡芳著:《最优控制问题的计算方法》,科学出版社,北京,1979。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)