摘要
随着战术目标智能化水平和机动能力的提高,传统的以比例导引律为代表的开环制导策略已难以满足未来高机动强博弈拦截对抗的战术需求。本文基于模型预测和Stackelberg主从博弈思想,将制导对抗问题转换为博弈优化问题,从而将最优制导指令的生成变成博弈平衡点的快速搜索问题,并引入有效集法,兼容弹目非线性动力学模型和过程约束,可以保证博弈均衡点的有限次可达,从而保证了指令的实时性。仿真结果表明,与传统制导律相比,本制导律能显著提高在强博弈场景下的拦截精度与成功率。
随着战术目标智能化水平与机动能力的不断提高,未来战争中战术目标的拦截对抗需求将呈现出高机动、强博弈的特征。在拦截弹与战术目标的博弈对抗中,拦截弹追求以最小脱靶量命中目标,而目标飞行器则寻求以最大脱靶量规避拦截弹。在此背景下,传统的制导律已难以满足日益复杂的战术拦截需
经典的比例导引
近年来,模型预测静态规划(Model predictive static programming, MPSP
此外,计算博弈方法近年也开始应用于无人机集群与航天器博弈对抗等领域中。这些方法能够兼容较为复杂的对象动力学系统,并且能够有效求解博弈问题。例如,Zhang
鉴于此,本文在现有研究成果基础上,进一步探索MPSP与博弈论的结合,提出一种基于模型预测Stackelberg博弈(Model predictive Stackelberg game, MPSG)的导弹末制导律。本文的主要工作包括:(1)在现有基于Stackelberg博弈与MPSP的博弈问题求解方法基础上引入有效集法与多步决策,使弹目追逃博弈的求解过程可考虑拦截弹最大过载约束,同时可进行更长时间范围的控制序列规划;(2)针对每个离散时刻指令加速度大小必须小于指定值的非线性约束,给出了一种约束松弛方法,将其转变为线性不等式约束,从而显著降低计算复杂度;(3)将Stackelberg博弈框架与MPSP相结合并改进,提出MPSG方法,给出基于MPSG的计算博弈制导律,实现了对高机动强博弈目标的预测博弈制导。仿真结果证明了本文方法的有效性。
MPSP方法能够处理系统的非线性特性,并在有限的计算资源下提供快速的控制决策,而Stackelberg博弈理论则提供了一种层级决策框架,适用于存在领导者和追随者的博弈场景。在这种博弈中,领导者首先做出决策,追随者随后根据领导者的决策做出最优响应。受到基于MPSP的航天器轨道博弈方
本文提出的MPSG方法是一种将MPSP方法与Stackelberg博弈理论相结合,用于求解基于弹目非线性动力学系统的博弈问题的方法。本节将首先给出MPSG方法的数学推导,随后给出基于MPSG方法的制导律设计方案。
仿照MPSP方法的思路,设弹目动力学状态方程与弹目复合动力学系统的输出方程为
(1) |
(2) |
(3) |
式中:表示导弹或目标系统状态向量;表示导弹或目标系统控制向量;表示弹目复合动力学系统输出向量;下标m与t分别表示导弹与目标,且,,,,。
(4) |
(5) |
(6) |
式中:、、分别为第个离散时刻的导弹状态向量、目标状态向量、复合动力学系统输出向量,记为离散点总数,其对应可取值为;、分别为第个离散时刻的导弹控制向量、目标控制向量,其对应可取值为。
假定弹目博弈交战场景中,导弹和目标飞行器均在前个离散时刻进行决策,导弹的目标在减小弹目复合动力学系统输出大小的同时减小自身控制量的大小,而目标飞行器的目标则是在增大弹目复合动力学系统输出大小的同时减小自身控制量的大小。则弹目双方的性能指标函数定义为
(7) |
(8) |
式中:、、、均为正定矩阵;表示导弹在个离散时刻的所有控制向量的复合向量,定义为。
在完成指标函数定义后,引入Stackelberg主从博弈框架用于进一步定义博弈问题。假设飞行器的控制向量不会在短时间内发生突变,则在基于Stackelberg博弈框架进行博弈建模时,可认为在博弈过程中,由目标飞行器首先进行决策,随后导弹观测到目标飞行器控制向量;在博弈均衡点求解过程中将目标飞行器第个离散时刻的控制向量指定为通过历史数据解算得到的目标飞行器控制向量观测值,并基于此进行均衡决策的求解。考虑导弹控制向量服从若干非线性不等式约束的情形,可得到待求解博弈问题P1为
式中:, 。
至此,本文给出了一种基于Stackelberg博弈架构进行多步博弈的方案,即在跟随者的决策过程中,仅认为领导者的第1步决策固定为观测值,后续决策仍作为变量,跟随者需要求解的问题由单步Stackelberg博弈得到的单边最优问题变为博弈两方的双边最优问题。
按照基于MPSP的航天器轨道博弈方法的思路,可通过迭代方法求解问题P1,在每次迭代中更新与,使之最终趋于均衡解。在第次迭代时,弹目性能指标函数可定义为
(9) |
(10) |
式中可取对与泰勒展开的一次项,即
式中和分别为第次迭代时对和的Jacobi矩阵,也可称为导弹和目标飞行器的敏感矩阵。
仿照MPSP方法的思路,矩阵的计算可通过迭代的方式进行,即
(11) |
(12) |
(13) |
(14) |
矩阵的计算基本同理,此处不再赘述。
为了降低每次迭代需要求解的问题复杂度,本文对问题P1中的非线性不等式约束进行了处理。在第次迭代时,可将P1中的非线性不等式约束通过适当的方式松弛为线性不等式约束,则可得到第次迭代需要求解的子问题
式中
根据非线性约束的具体形式,实际的松弛方法也存在差异。本文考虑的非线性约束及松弛方法将在1.2.2小节详述。
通过合理配置与,可使得与均为凸函数。容易证明此时问题SP1必然存在Stackelberg均衡。随后可引入有效集法对带有线性不等式约束的问题SP1进行求解。使用有效集法求解问题SP1的迭代公式将在1.1.4小节给出。
求解得到问题SP1的均衡解与后,对与进行更新,作为与,随后根据更新后的弹目控制量重新计算弹目状态,用于问题P1求解过程的下一次迭代。
重复上述步骤,直至与收敛至某一特定值,此时即可将与作为问题P1的均衡解与。至此,可认为MPSG方法的解收敛至问题P1的均衡解,求解结束。
关于问题P1求解的收敛性问题,需要指出,MPSG算法由MPSP算法延伸而来,而MPSP算法是一种基于迭代的数值优化算法,可从理论上证明其最优解的存在性与迭代收敛性,但量化分析其收敛速度的难度较大。此研究领域内有关算法收敛性的研究主要集中于收敛速度的提高方法,如Zhou
仿照基于MPSP的航天器轨道博弈方法研
使用有效集法求解问题SP1也需要通过多次迭代进行。设在使用有效集法求解问题SP1的第步迭代时,活动约束集为,由活动约束集确定的活动约束为
(15) |
则可基于构造拉格朗日函数
(16) |
式中
(17) |
对
(18) |
按照有效集法,在求解问题SP1的第步迭代时,对的偏导数应为零,同时联立式(
容易证明,矩阵行满秩时,可对上述线性方程组的系数矩阵求逆,而在有效集法迭代过程中,这一条件容易满足。由分块矩阵求逆公式可得
(19) |
(20) |
式中
定义函数为从到满足
(21) |
(22) |
(23) |
式中。
(24) |
式中
由
关于问题SP1求解的收敛性问题,需要指出,使用有效集法求解问题SP1的方法属于使用有效集法求解线性不等式约束条件下二次规划问题的延伸,其最优解存在性与收敛性可在理论层面得到证明,而收敛速度同样难以量化分析。但可以确定,若问题SP1的均衡解不在任何不等式约束的边界处,问题SP1的迭代仅需要一步即可完成。配点离散方法同样可提高问题SP1的算法收敛速度,将类似方法应用于问题SP1的求解以提高算法收敛速度的方案也将在后续研究中给出。
将上述MPSG方法应用于博弈制导时,可认为导弹与目标动力学方程均满足下面给出的无推力飞行器三自由度动力学方程形式。在导弹动力学方程中,假设加速度指令的执行存在一阶延迟,并基于导弹自身三自由度动力学模型参数给出导弹所受阻力的表达式
(25) |
其中导弹状态向量与控制向量定义为
式中:表示北天东坐标系下的位置坐标;表示速度大小;与分别表示弹道倾角与弹道偏角;与分别表示自身加速度在自身弹道坐标系下轴与轴方向的分量;为重力加速度大小;表示零升阻力系数;表示所处位置大气密度;表示特征面积;表示诱导阻力因子;表示质量;下标c表示指令值。而在目标动力学方程中,为了简化问题,此处忽略目标飞行器所受到的诱导阻力,并忽略目标飞行器执行加速度指令的延迟,则
(26) |
式中
另外,可根据目标历史状态估计得到,并在应用MPSG方法求解均衡决策时假定其为常值。受篇幅限制,此处不再详细介绍估计方法。
考虑到实际弹目博弈交战场景需求,可将弹目复合动力学系统的输出方程定义为弹目相对位置矢量
(27) |
MPSG方法的应用可基于上述系统方程进行。
此处给出本文在求解弹目追逃博弈问题时所考虑的非线性不等式约束,并给出松弛线性化方法,从而降低每次迭代待求解问题的复杂度。
在MPSG算法中,指定导弹每个时刻的过载指令加速度大小应当小于给定值,则问题P1中的非线性不等式约束可表示为
而在求解问题P1的第次迭代过程中,可将其松弛为以下不等式约束
(28) |
(29) |
(30) |
(31) |
(32) |
式中可取值为。而在完成问题SP1的求解,得到与后,可更新弹目控制向量
(33) |
(34) |
式中可取值为,且。
随着迭代的进行,可以认为博弈问题在上述松弛后的可行域的均衡解将逐步趋近于原有可行域的均衡解。
考虑算法的实际实现,基于MPSG方法的制导算法可分为两部分。其中一部分算法需要在每个制导周期记录目标飞行器的状态数据及对应的采样时刻,并依此估计目标飞行器的控制向量及目标飞行器预测模型参数;而另一部分算法则在每个制导周期根据弹目飞行器状态数据以及目标飞行器控制向量与模型参数估计值给出弹目均衡决策与。估计目标飞行器控制向量与模型参数部分的算法较容易实现,也并非本文的重点,此处不再详细介绍。本文主要给出另一部分算法,即均衡决策求解算法的实现过程。
制导算法在每个制导周期的最开始运行,需要获取当前弹目状态与目标飞行器当前控制估计值,随后基于算法内置的弹目动力学模型,令导弹采用比例导引制导律,决策生成过程中根据导弹过载上限对生成的控制向量进行限幅;目标飞行器在第1个离散时刻的控制向量指定为,而从第2个离散时刻开始,与第1个离散时刻一致,置零,直至第个离散时刻。此后直至第个离散时刻,弹目控制均置为零,将所得弹目控制作为迭代的初始解与,随后开始迭代。而在第次迭代中,首先进行敏感矩阵计算,随后基于,按照1.2.2小节给出的方式进行过载约束松弛处理,得到松弛约束并构造问题SP1,并由式(
均衡解求解算法如下所示。
算法1 博弈均衡点求解流程
输入:弹目状态向量与、目标飞行器决策估计值、目标预测模型参数及其他常参数
输出:弹目均衡决策与
(1) 基于初始弹目状态与指定初始决策方式获取初始决策、及对应状态序列;
(2) 由
(3) While true
(5) 根据式(
(6) 根据1.1小节使用有效集法求解线性化增量博弈问题SP1得到与;
(7) 由式(
(8) If 与在更新弹目决策前后变化趋于零
(9) ,,return;
(10) End
(11) ;
(12) End
算法2 线性化增量博弈问题求解算法流程
输入:弹目控制向量与、敏感矩阵与、终端输出向量、不等式约束及其他常参数
输出:弹目均衡控制量增量与
(1) ,;
(2) While true
(3) 将中的不等式约束取等号,构造活动约束;
(5) 将代入
(6) If 中存在负元素
(7) 将中负元素对应的约束从中去除,得到,并跳至第16行;
(8) End
(9) 由
(10) If 不满足不等式约束
(11) 在范围内找到能够使刚好成立的最大值;
(12) 将不等式约束中随变化刚好成立的约束加入,得到;
(13) Else
(14) ,,return;
(15) End
(16) ;
(17) End
本文在两个典型场景中基于MATLAB R2024b进行拦截数值仿真。其中,场景1的目标飞行器与拦截弹一同使用MPSG方法进行基于博弈的机动;场景2的目标飞行器机动为预先设计的螺旋机动。
另外,虽然在1.2小节中对目标动力学方程进行了简化处理,但在本节的数值仿真中,目标飞行器与导弹一并使用考虑诱导阻力与一阶执行机构延迟的三自由度飞行器动力学模型。
本节随后将分别给出两个场景的仿真结果。
此场景中,目标采用MPSG方法计算机动指令以回避导弹拦截。场景想定参数如
参数 | 导弹 | 目标 |
---|---|---|
初始位置/km | [0, 5, 0] | [5, 7, -0.5] |
初始速度/(m· | [900, 500, 100] | [-300, 0, 0] |
指令响应延迟 时间常数/s | 0.3 | 0.1 |
过载上限/g | 24 | 12 |
分别使用本文MPSG方法与比例导引(Proportion navigation, PN)方法拦截目标,得到各自脱靶量、拦截时刻、平均计算时间、拦截轨迹、过载曲线,如
参数 | MPSG | PN |
---|---|---|
脱靶量/m | 5.385 3 | 14.693 8 |
终端时刻/s | 4.381 6 | 4.374 1 |
平均计算时间/ms | 65.603 8 | 1.134 8 |

图1 强博弈目标拦截轨迹
Fig.1 Interception trajectory of the intensive game competitive target

图2 强博弈目标总过载曲线
Fig.2 Total overload curves of the intensive game competitive target

图3 强博弈目标过载分量曲线
Fig.3 Overload component curves of the intensive game competitive target
上述结果表明,上述场景中,针对强博弈机动目标,本文MPSG方法拦截精度优于传统PN方法。由
导弹使用MPSG方法拦截目标时,每次调用MPSG算法求解问题P1的迭代次数与计算用时、求解问题P1每次迭代求解问题SP1的平均迭代次数如图

图4 强博弈目标问题P1迭代次数
Fig.4 Iteration count for P1 of the intensive game competitive target

图5 强博弈目标计算时间
Fig.5 Computation time of the intensive game competitive target

图6 强博弈目标问题SP1迭代次数
Fig.6 Iteration count for SP1 of the intensive game competitive target
上述结果表明,绝大多数情况下,问题P1求解可通过少于4次迭代完成,问题SP1求解仅需进行1次迭代。由图
此场景中,目标进行过载大小约8g,周期约3 s的螺旋机动以回避导弹拦截。场景想定参数如
参数 | 导弹 | 目标 |
---|---|---|
初始位置/km | [0, 5, 0] | [5, 7, -0.5] |
初始速度/(m· | [900, 500, 100] | [-300, 0, 0] |
指令响应延迟 时间常数/s | 0.3 | 0.1 |
过载上限/g | 24 | N/A |
分别使用本文MPSG方法与PN方法拦截目标,得到各自脱靶量、拦截时刻、平均计算时间、拦截轨迹、过载曲线,如
参数 | MPSG | PN |
---|---|---|
脱靶量/m | 4.203 1 | 24.740 7 |
终端时刻/s | 4.479 8 | 4.475 3 |
平均计算时间/ms | 70.154 3 | 1.112 9 |

图7 非智能目标拦截轨迹
Fig.7 Interception trajectory of the non-intelligent target

图8 非智能目标总过载曲线
Fig.8 Total overload curves of the non-intelligent target

图9 非智能目标过载分量曲线
Fig.9 Overload component curves of the non-intelligent target
上述结果表明,上述场景中,针对持续螺旋机动目标,本文MPSG方法拦截精度优于传统PN方法。由
导弹使用MPSG方法拦截目标时,每次调用MPSG算法求解问题P1的迭代次数与计算用时、求解问题P1每次迭代求解问题SP1的平均迭代次数如图

图10 非智能目标问题P1迭代次数
Fig.10 Iteration count for P1 of the non-intelligent target

图11 非智能目标计算时间
Fig.11 Computation time of the non-intelligent target

图12 非智能目标问题SP1迭代次数
Fig.12 Iteration count for SP1 of the non-intelligent target
上述结果表明,绝大多数情况下,问题P1求解可通过少于4次迭代完成,问题SP1求解仅需进行1次迭代。由图
本文提出了一种基于MPSG的导弹末制导律,旨在应对未来战争中高机动强博弈目标带来的挑战。通过构建导弹与目标的非线性动力学模型,并迭代更新多个离散时刻的控制量,实现了双边最优制导。数值仿真结果证实,MPSG制导律在不同拦截场景下均表现出优越的拦截性能,显著提升了导弹的拦截精度与成功率。本文的研究结果为:
(1)针对高机动强博弈目标,所提出的博弈制导律能够使拦截弹与目标的脱靶量达到博弈均衡,拦截弹能够以较小的脱靶量拦截目标,同时保证能量消耗较小;
(2)针对非智能目标,所提出的制导律仍然具有优于传统制导律的拦截性能,表明制导律具有较广的适用范围;
(3)在前人已有的将Stackelberg博弈与MPSP结合的研究基础上,给出了约束处理与多步决策方法;
(4)给出了导弹法向加速度大小上限的非线性约束的线性松弛化方案,从而大大降低了每次迭代需要求解的问题的难度与复杂度,使计算复杂度明显降低。
参考文献
李炯,李万礼,张锦林,等.反高速强机动目标拦截弹制导与控制关键技术浅析[J/OL].现代防御技术,2024: 1-14. [2024-10-22].http://kns.cnki.net/kcms/detail/11.3019.TJ.20241018.1350.011.html. [百度学术]
LI Jiong, LI Wanli, ZHANG Jinlin, et al. An Analysis of the key technologies for guidance and control of anti-high speed and strong mobility target interceptor[J/OL]. Modern Defence Technology, 2024: 1-14. [2024-10-22]. http://kns.cnki.net/kcms/detail/11.3019.TJ.20241018.1350.011.html. [百度学术]
钱杏芳. 导弹飞行力学[M]. 北京: 北京理工大学出版社, 2000. [百度学术]
QIAN Xingfang. Missile flight mechanics[M]. Beijing: Beijing Insititute of Technology Press, 2000. [百度学术]
BABU K R, SARMA I G, SWAMY K N. Switched bias proportional navigation for homing guidance against highly maneuvering targets[J]. Journal of Guidance, Control, and Dynamics, 1994, 17(6): 1357-1363. [百度学术]
MEHRANDEZH M, SELA N M, FENTON R G, et al. Robotic interception of moving objects using an augmented ideal proportional navigation guidance technique[J]. IEEE Transactions on Systems, Man, and Cybernetics—Part A: Systems and Humans, 2000, 30(3): 238-250. [百度学术]
FARUQI F A. Differential game theory with applications to missiles and autonomous systems guidance[M]. Hoboken, USA: John Wiley & Sons, 2017. [百度学术]
王鹏, 何智川, 李军智, 等. 拦截机动目标的固定时间事件触发协同制导律[J]. 北京理工大学学报, 2024, 44(10): 1040-1050. [百度学术]
WANG Peng, HE Zhichuan, LI Junzhi, et al. Event-triggered fixed-time cooperative guidance law against maneuvering target[J]. Transactions of Beijing Institute of Technology, 2024, 44(10): 1040-1050. [百度学术]
张晨欣, 王宁宇, 王小刚. 空空导弹反强机动目标时间约束滑模制导律[J]. 宇航学报, 2023, 44(10): 1544-1554. [百度学术]
ZHANG Chenxin, WANG Ningyu, WANG Xiaogang. Time-constrained sliding mode guidance law of air-to-air missile against strong maneuvering target[J]. Journal of Astronautics, 2023, 44(10): 1544-1554. [百度学术]
RADHAKANT P, MANGAL K. Model predictive static programming: A computationally efficient technique for suboptimal control design[J]. International Journal of Innovative Computing Information and Control, 2009, 5(2): 399-411. [百度学术]
ZHOU C, YAN X D, TANG S. Generalized quasi-spectral model predictive static programming method using Gaussian quadrature collocation[J]. Aerospace Science and Technology, 2020, 106: 106134. [百度学术]
ZHOU C, YAN X D, BAN H H, et al. Generalized-Newton-iteration-based MPSP method for terminal constrained guidance[J]. IEEE Transactions on Aerospace and Electronic Systems, 2023, 59(6): 9438-9450. [百度学术]
ZHOU C, HE L, YAN X D, et al. Active-set pseudospectral model predictive static programming for midcourse guidance[J]. Aerospace Science and Technology, 2023, 134: 108137. [百度学术]
MONDAL S, PADHI R. Constrained quasi-spectral MPSP with application to high-precision missile guidance with path constraints[J]. Journal of Dynamic Systems, Measurement, and Control, 2021, 143(3): 031001. [百度学术]
周聪. 临近空间机动目标拦截预测中制导方法[D]. 西安: 西北工业大学, 2023. [百度学术]
ZHANG T, ZHU Y J, MA D Y, et al. Toward rapid and optimal strategy for swarm conflict: A computational game approach[J]. IEEE Transactions on Aerospace and Electronic Systems, 2024, 60(3): 3108-3120. [百度学术]
LIU Y C, ZHANG Y H, JIANG J, et al. Multiple-to-one orbital pursuit: A computational game strategy[J]. IEEE Transactions on Aerospace and Electronic Systems, 2024(99): 1-12. [百度学术]
LIU Y C, LI C Y, JIANG J, et al. A model predictive Stackelberg solution to orbital pursuit-evasion game[J]. Chinese Journal of Aeronautics, 2025, 38(2): 103198. [百度学术]
PAWLICK J, ZHU Q Y. Game theory for cyber deception: From theory to applications[M]. Cham, Switzerland: Birkhäuser Cham. [百度学术]