摘要
当人为和自然灾害突然发生时,在极端情况下快速部署搜救机器人是拯救生命的关键。为了完成救援任务,搜救机器人需要在连续动态未知环境中,自主进行路径规划以到达救援目标位置。本文提出了一种搜救机器人传感器配置方案,应用基于Q‑table和神经网络的Q‑learning算法,实现搜救机器人的自主控制,解决了在未知环境中如何避开静态和动态障碍物的路径规划问题。如何平衡训练过程的探索与利用是强化学习的挑战之一,本文在贪婪搜索和Boltzmann搜索的基础上,提出了对搜索策略进行动态选择的混合优化方法。并用MATLAB进行了仿真,结果表明所提出的方法是可行有效的。采用该传感器配置的搜救机器人能够有效地响应环境变化,到达目标位置的同时成功避开静态、动态障碍物。
关键词
自然灾害和人为灾害事件时有发生,且类型多变、种类多样,危害甚广。当灾害突发时,由于房屋、道路交通系统严重受损,很多人员被困受灾点,短时间内无法及时进行救援。灾害是不可避免的,但是可以通过高效的灾后应急救援,大幅降低灾害造成的损失。搜救机器人的有效应用能够提高应急救援的效率;然而,复杂、未知的灾区环境为搜救机器人的自动部署带来了极大的挑战。
目前已经提出了许多路径规划算法来部署机器人,但大多数传统算法都是基于已知的环境模型。然而,在灾害发生之后,存在着很大的挑战,例如:(1)环境不仅是未知的,还是动态的,有时无法获得环境的模
当搜救机器人在未知动态的灾后环境中工作时,传统的路径规划方法可能会因为上述挑战而失败。强化学习为解决这些挑战提供了一种很有效的方
在Q‑learning算法中,由于机器人会在探索时出现多次的重复次优路径,从而陷入局部极值,影响算法的收敛性。近年来,也有不少学者进行了创新与改进,为加快算法的收敛性,文献[
本文主要研究搜救机器人如何在复杂未知的灾区环境中进行自主路径规划实现应急救援,在实时连续的动态环境中避开静态和动态障碍物,到达目标位置。
(1)以Q‑learning方法为基础,并引入神经网络方法与之结合。根据所提出的传感器配置方案,分别采用两种算法来解决未知环境中搜救机器人的路径规划问题。该方法不需要事先对环境进行建模,而是不停地进行实验,通过实验来与环境进行交互,并在反馈信息的基础上,对搜救机器人的动作进行优化。
(2)针对强化学习中的挑战,即如何平衡探索与利用问题。本文提出了一种混合优化策略,令算法能够在贪婪搜索和Boltzmann搜索策略之间进行动态切换,避免算法陷入局部最优,大大提升了搜救机器人在未知复杂的环境中寻找目标位置的能力。
(3)仿真实验表明,经过一段时间的学习后,搜救机器人已经具备了在静态和动态环境中规避障碍,寻找到目标位置的能力,并且系统性能稳定,能够稳定到达目标位置。
本文所用的搜救机器人为差动驱动结构,如

图1 搜救机器人模型
Fig.1 Search and rescue robot model
首先定义瞬时曲率中心(Instantaneous center of curvature, ICC)到搜救机器人两个车轮的中心的距离为,左右车轮之间的距离为。和分别表示左右车轮沿地面的速度,左右两轮关于ICC的旋转速度是相同的,通过操纵控制参数和可以使搜救机器人向不同的位置和方向移动。
(1) |
(2) |
两个车轮以相同的角速度转动时,搜救机器人沿直线前进;当搜救机器人需要改变方向时,两个车轮的转速都会发生改变。因此,可以得到当时,搜救机器人沿直线向前运动;当时搜救机器人绕左轮旋转;当时搜救机器人绕右轮旋转。
假设搜救机器人当前位置为,朝着相对于x轴成角的方向前进。那么,之后(设仿真过程中)的搜救机器人的位置坐标变化方程为
(3) |
借助传感器,搜救机器人能够直接获取环境中障碍物的距离和角度信息,合适的传感器配置将为搜救机器人提供更高的精度。对输入数据进行简单而有效的处理同样具有重要性,然而,在基于Q‑table的强化学习中,信息量过大会导致搜救机器人学习所需的时间增加,计算负荷庞大。本文对连续传感器区域进行分割和离散化,使环境空间变得更易管理,在保证精度的同时减少了计算量。
本文提出了一种由5个HC‑SR04超声波传感器组成的搜救机器人,主要用来测量周围的环境以检测到障碍物。HC‑SR04超声波传感器被广泛应用于避障、距离测量等场景,能够在2 cm到400 cm的范围内测量,并具有3 mm左右的高精度。将传感器模块安装在搜救机器人的前部,使其能够有效地发送超声波脉冲并接收回波信号。
最外侧的两个传感器的夹角为90°,中间3个传感器呈对称分布。每个传感器的视野约为60°,安装时它们之间存在约15°的重叠,因此搜救机器人的总视野约为150°。针对静态障碍物避障,本研究将传感器测量的距离和角度信息离散化为144个状态。如

图2 机器人视野示意图
Fig.2 Schematic diagram of robot field of view
将视觉范围分为多个扇区,搜救机器人可以更容易地识别障碍物的位置和方向,并采取适当的行动来避开或处理这些障碍物。根据搜救机器人的视角范围,将150°的总视角划分为8个扇区,每个扇区覆盖一个特定的角度范围。如

图3 区域的细分
Fig.3 Subdivision of area
用参数来表示区域和扇区,、分别用于表示左侧的区域和扇区,、则分别用于表示右侧的区域和扇区。在存在动态障碍物的仿真环境中,状态空间扩展两个附加参数、。用值1或0表示左侧的障碍物是否为动态障碍物,同理用于表示右侧的障碍物是否为动态障碍物。
用表示搜救机器人与目标的位置矢量,相对于x轴的角度记为,角可用作目标位置的指示。角包含在状态空间中,并被离散成6个部分,用表示。当时,允许搜救机器人接近目标位置;当时,允许搜救机器人左转或右转进行空间探索;当时,搜救机器人只允许直线行走。同样的规则也适用于。
Q‑learning算法是一种基于值迭代的强化学习算法,它能够在离散状态和动作空间中解决最优策略问题,且不需要事先知道环境的状态转化模型;其主要思想是搜救机器人与周围的环境进行交互,搜救机器人对每个可能的状态和动作进行多次尝试,不断地学习和优化一个价值函数来实现自主学
在启动时,Q‑table是空的,搜救机器人只知道一组可能的状态和动作。搜救机器人在当前状态下,选择动作,通过环境的作用,形成新的状态,并产生回报或惩罚。
Q‑table根据
(4) |
式中:为当前状态,为当前状态下执行的动作,为当前状态下获得的奖励;为学习率,,,表示搜救机器人只能学习过去的状态,表示搜救机器人可以学习所有未来的奖励;为折扣因子,,当时表示搜救机器人只能接受当前的奖励。
若Q值变小,说明搜救机器人处于当前位置时选择该动作不是最优的。当搜救机器人再次处于该位置或状态时,搜救机器人可以避免再次选择该动作。Q‑table会随着移动机器人探索环境次数的增加而更新,搜救机器人会根据每个状态选择奖励最大的动作,在多次迭代后,搜救机器人最终会获得最优动作。
在本文中,基于Q‑table的Q‑learning算法的状态空间为这5个传感器探测到的离散化区域。在静态障碍物环境下,可以用表示;由于动态环境中包含更多的信息,所以状态空间需要更多的元素,即。其中和分别代表区域的左右侧,和分别代表了扇区的左右侧,和分别表示搜救机器人左右侧的静态或动态障碍物,表示角度。
搜救机器人在每个状态下可采取直行、右转、左转3种动作,表示为动作集合a=[1,2,3]奖励函数对搜救机器人进行激励,对表现好的行为进行正激励,对不良行为进行负面激励,以此来保障搜救机器人的安全。本文明确了搜救机器人在前进时给出正奖励值,而在转弯时给出负奖励值。为了防止搜救机器人先右后左,或先左后右,导致来回运动,应给予负奖励值。搜救机器人距离目标位置越近,奖励的正向数值就越高。最后,如果没有发生碰撞,则搜救机器人的总奖励值等于上述奖励值的总和,如果发生碰撞,则给予较大的负奖励值作为惩罚。
探索可能以牺牲短期利益为代价,通过收集更多的信息来获得更准确的长期利益估计;而利用的重点是在可获得的信息的基础上使短期收益最大化。探索行为不能无休止地进行下去,否则将会以牺牲短期利益为代价,损害全局利益;同时也不能太看重短期利益,而忽略了未来的长远利益。
贪婪探索在面对问题时,总是根据目前的情况,做出当下最佳的决定。也就是说,如果不考虑全局优化,那么得到的结果只能是局部优化。表示概率为的最优选择,表示概率为的随机选择。
(5) |
对于行为选择策略,较为理想的情况是高概率选择具有高奖励的行为和低概率选择具有低或负奖励的行动。因此,不使用动作选择概率,而是使用权重来确定动作,对产生高奖励值的动作赋予高权重,反之亦然。这种策略被称为Boltzmann搜索策略,表达式如下
(6) |
式中:P为选择动作a的概率;为动作a的价值估计;T为控制选择随机性的参数。
探索可以提高算法的收敛性,但是由于搜救机器人对所处的环境不够熟悉,很容易陷入局部最优;Boltzmann搜索策略允许对环境进行大范围的探索,但算法收敛缓慢。因此,本文将这两种方法结合起来,提出了混合优化策略,既可以加快算法的收敛性,又可以防止算法陷入局部极值。这种组合动作选择策略允许算法在前期对未知环境进行充分的探索,随着搜救机器人对环境的熟悉程度越来越高,通过调整算法,赋予已知环境中奖励值最大动作更高的概率,从而提高搜索效率,节约计算资源。每个状态的最优动作由
(7) |
神经网络是指一系列受到生物学和神经科学的启发而产生的数学模型,它主要是通过抽象人脑中的神经元网络,构造出人造神经元,然后根据特定的拓扑结构将人造神经元连接起来,从而模拟出生物神经网络。
由于环境的复杂性,传统的Q‑learning方法无法将变化的环境信息构建成合适状态‑动作
在前馈神经网络中,神经元分布在不同的层次中,如

图4 基于Q-learning的神经网络
Fig.4 Neural network based on Q-learning
激活函数在神经元中扮演者极其重要的角色。选择连续可导的非线性函数作为激活函数能够显著增强网络的表示能力和学习能力。为了提高网络的效率,通常可以选择双曲正切函数,这个函数及其导函数都具有简单的形式,值域为[-1,1],不影响训练的效率和稳定性。
初始化后,逐层计算神经网络,直至获得最终输出。加权矩阵用于对第层和第层之间的连接进行加权。这些加权矩阵和每一层的输出值向量相乘,得到的乘积被传递给激活函数作为参数,输出层Q函数的激活值可以用
(8) |
通过奖励函数来保障机器人的安全,对每个给定的行为进行奖
(9) |
(10) |
在计算偏差时,仅考虑与最后执行的动作对应的Q值,为了避免对其他Q函数进行错误估计,在第三层中将偏差向量乘以单位矩阵,指单位矩阵中各种动作的每一列。设偏差为,其中参数表示偏差针对的层数,
(11) |
(12) |
在利用反向传播算法找到所有的向量后,进一步利用偏差向量计算关于权重矩阵和的偏导值,即损失函数的梯度为,损失函数的梯度用于更新神经网络中的权重矩阵,权重矩阵的更新公式如(14)所示。
(13) |
(14) |
本文的仿真系统简化了救灾场景,并在不同场景的地图上进行了实验,模仿了应急救援场景中可能出现的各种环境,以确保路径规划框架在不同环境规模下的通用性和鲁棒性。
搜救机器人目标到达救援任务的地图环境如

图5 仿真环境示例
Fig.5 Example of simulation environments
这些障碍物的运动是有规律的,表现为匀速圆周运动,即每个动态障碍物都沿着一个特定的半径,以均匀的速度在环绕中心点的轨迹上移动。如

图6 动态障碍物的位置变化
Fig.6 Position changes of dynamic obstacles
在进行搜救机器人避障训练时,更新Q‑table需要确定两个关键的超参数,即折扣率和学习率。为了满足搜救机器人的长期需求,采取最优决策优化避障路径,因此折扣率选取较大值0.9,表示未来决策对当前决策行为的影响较大。在学习率的选择上,要得到最大的回报,须把试验的重复次数控制在可以接受的限度之内,设置学习率为0.5。将Boltzmann搜索的初始参数设置为T=24,贪婪搜索的初始时参数为epsilon=0.95,以逐步减小每次尝试随机动作的概率。
在仿真的初始化阶段,将最大试验次数设置为10 000次,每次试验最大步长限制为600步。试验会在以下情况下结束:搜救机器人达到最大步长、触发碰撞条件或者到达目标位置。
在具有静态障碍物的环境中,搜救机器人从起始点向目标位置移动,它可以选择的动作有直行、右转和左转。起始阶段,机器人会发生碰撞,经过几次试验后,机器人学会避开墙壁和障碍物。一段时间的探索学习后,搜救机器人可以找到一条通往目标位置的路径。
在具有动态障碍物的环境中,由于无法用图捕捉到搜救机器人的所有动作,所以分别用4张图展示机器人的自主学习路径规划过程。

图7 动态环境的仿真结果
Fig.7 Simulation results for dynamic environments
在实验过程中,针对不同场景的地图进行了广泛测试,并引入了不同的初始点作为对照试组,不同的初始点可以模拟搜救机器人在应急场景中可能面临的多样化启动条件,以更全面地评估提出的路径规划框架的性能。
一次试验是指搜救机器人从起点出发开始,一直到满足终止条件才结束。终止条件是搜救机器人到达终点、在环境中与墙壁或障碍物发生碰撞或到达试验设定的最大步长。试验次数表示在训练过程中,搜救机器人避开障碍到达目标位置的训练次数,碰撞次数指在稳定到达目标位置之前搜救机器人试验过程中发生碰撞的次数,碰撞率是碰撞次数和试验次数的比值。
在基于Q‑table的仿真实验中,通过使用两个不同的初始点,即(0,0)和(-20,-20),分别在地图一和地图二场景中进行了自主路径规划。在不同初始点和不同地图在平均碰撞次数、平均碰撞率、平均步长的表现如
地图一 | ||||||
---|---|---|---|---|---|---|
初始点 | 状态 | 试验次数 | 碰撞次数 | 碰撞率 | 步长 | |
x | 0 | 静态 | 150 | 28.40 | 16.67 | 51 |
y | 0 | 动态 | 300 | 151.80 | 50.60 | 67 |
x | -20 | 静态 | 150 | 35.40 | 23.60 | 144 |
y | -20 | 动态 | 300 | 156.00 | 52.00 | 169 |
地图二 | ||||||
初始点 | 状态 | 试验次数 | 碰撞次数 | 碰撞率 | 步长 | |
x | 0 | 静态 | 150 | 45.6 | 30.4 | 142 |
y | 0 | 动态 | 300 | 209.8 | 69.93 | 163 |
x | -20 | 静态 | 150 | 49 | 32.67 | 230 |
y | -20 | 动态 | 300 | 214.2 | 71.4 | 259 |
通过

图8 静态障碍物环境中的Q-table仿真结果
Fig.8 Q-table simulation results in static obstacle environments

图9 动态障碍物环境中的Q-table仿真结果
Fig.9 Q-table simulation results in dynamic obstacle environments
探索过程中所获得的奖励值用来表示该方案的稳定性,

图10 Q-table方法的单次试验奖励
Fig.10 Single trial rewards for Q-table method
在先前的场景中,障碍物表现出有规律的圆周运动。然而,为了模拟更真实且复杂的环境,还引入了无规则运动的动态障碍物。每个无规则运动的障碍物都被随机分配一个小的旋转角度,在平面上进行不可预测且随机性强的运动。每个障碍物的运动轨迹因此变得不规律,增加了环境的复杂性。这种引入无规则运动的障碍物的变化旨在更全面地评估搜救算法的性能,使其能够在具有挑战性和变化多样的环境中展现鲁棒性和适应性,有助于确保算法在应对真实世界中各种随机性和不确定性时能够可靠地执行任务。
如

图11 不同动态障碍物的单次试验奖励
Fig.11 Single trial rewards for different dynamic obstacles
将神经网络引入Q‑learning算法后,生成的轨迹仍然代表奖励最大的最佳路径,试验方法与Q‑table方法一致。
地图一 | ||||||
---|---|---|---|---|---|---|
初始点 | 状态 | 试验次数 | 碰撞次数 | 碰撞率 | 步长 | |
x | 0 | 静态 | 500 | 235.00 | 47.00 | 155 |
y | 0 | 动态 | 800 | 314.60 | 39.33 | 168 |
x | -20 | 静态 | 500 | 306.80 | 65.36 | 251 |
y | -20 | 动态 | 800 | 376.00 | 52.40 | 275 |
地图二 | ||||||
初始点 | 状态 |
试验 次数 |
碰撞 次数 | 碰撞率 | 步长 | |
x | 0 | 静态 | 500 | 316 | 63.20 | 243 |
y | 0 | 动态 | 800 | 390.4 | 48.80 | 261 |
x | -20 | 静态 | 500 | 373.8 | 74.76 | 321 |
y | -20 | 动态 | 800 | 429.2 | 53.65 | 346 |
通过对实验结果的分析,初始点、地图结构和动态障碍物对基于神经网络的路径规划算法性能的显著影响。在地图一中,初始点为(0,0)时,算法表现出较低的碰撞次数和碰撞率,而初始点离目标位置距离变远时,碰撞次数和碰撞率上升,这突显了初始点选择对于算法性能的关键影响。在地图二中,初始点为(0,0)时,相同的试验次数内却具有较高的碰撞率,说明地图结构对路径规划的适应性也是一个关键因素。引入动态障碍物导致了更高的碰撞次数和碰撞率,验证了动态环境增加了路径规划的复杂性。

图12 静态障碍物环境中的神经网络仿真结果
Fig.12 Neural network simulation results in static obstacle environments

图13 动态障碍物环境中的神经网络仿真结果
Fig.13 Neural network simulation results in dynamic obstacle environments
使用基于神经网络的Q‑learning方法的单次试验奖励值,如

图14 基于神经网络方法的单次试验奖励
Fig.14 Single trial rewards based on neural network method
如

图15 神经网络中不同动态障碍物的单次试验奖励
Fig.15 Single-trial rewards for different dynamic obstacles in neural networks
在路径规划实验中,引入了一种稀疏奖励机制,修改奖励函数的分配方式,将奖励更加有选择性地提供,只有特定条件下才给予奖励。目的就是为了让搜救机器人更难以确定正确的动作和策略,增加学习的难度。因此奖励函数设置为只有当搜救机器人成功抵达目标位置时,系统会提供正向奖励,发生碰撞后,系统会提供惩罚函数。另外为了引导机器人逐步逼近目标,可以在机器人逼近目标位置的过程中,对3个动作选择列表提供小额奖励。
在地图一,初始点为(0,0)的场景中引入稀疏奖励机制的实验结果如

图16 稀疏奖励机制的单次试验奖励
Fig.16 Single trial rewards for sparse reward mechanism
通过引入稀疏奖励机制,成功证明了本文提出的奖励机制更为合理和有效,更好地引导了机器人的学习过程。实验结果表明,在特定条件下提供奖励,使得机器人需要更多的尝试来成功到达目标位置。奖励值的不稳定性和探索性增加表明了稀疏奖励机制使得机器人更难以确定正确的动作和策略,反而更加注重探索环境。
在大型环境下进行搜救任务是一项极富挑战性的任务。在庞大的环境中,机器人需要面对更多复杂的地形和障碍物,以及更远距离的目标位置,这使得路径规划和决策过程变得更为复杂和耗时。
首先,地图尺寸的增加意味着机器人需要更广泛、更深入的探索环境,以了解地形、障碍物分布以及可能的目标位置。这涉及更多的试错,因此机器人需要不断调整和优化其行动策略,以适应地图的广泛范围。其次,大型地图引入了更多的动态性,增加了环境的不确定性。搜救机器人在执行任务时需要更灵活地应对这种不可预测性,可能需要更频繁地调整其路径规划和决策,以适应环境的变化。此外,大尺寸地图还可能导致搜救机器人在寻找目标位置时面临更长的路径选择,这需要强化学习算法具备更好的记忆和规划能力,以确保机器人能够有效地探索大范围的地图并最终达到目标。
基于以上挑战,可以采用一种创新的阶段目标点方法,以引导搜救机器人更有效地应对环境复杂性。这方法将大型地图划分成多个区域,并在这些区域之间引入引导点,从而形成一个阶段性的任务执行框架。
在每次试验开始时,搜救机器人通过传感器获取环境信息和当前目标点的位置信息。经过先前的训练学习后,机器人能够实时判断是否已达到预设的引导点。若搜救机器人成功到达引导点,系统将切换至下一个阶段的目标点,从而实现任务的分阶段完成;若搜救机器人未达到预设引导点,其将持续向当前引导点靠近。这个智能化的引导系统使得搜救机器人能够根据环境变化和障碍物分布,有序地规划路径并调整决策,以更高效地实现大范围地图的探索与目标达成。
为确保应急救援任务的顺利执行,搜救机器人必须在不确定的环境中进行自主的路径规划,以在避开静态和动态障碍物的前提下成功到达目标位置。为此,本文采用了基于Q‑table和基于神经网络的Q‑learning算法,这使得搜救机器人能够通过与外界环境的交互式反馈机制,动态地调整其动作。这种自主适应性使得机器人能够更好地适应不断变化的环境条件。引入了传感器配置方案,这意味着机器人能够通过合适的传感器感知外部环境,有助于提高环境感知的精度,进而提升路径规划的准确性。
本文还构建了小车的动力学模型以及基于强化学习的搜救机器人路径规划框架。在这个框架下,动力学模型为路径规划提供了更真实的运动模拟基础,使得路径规划更符合实际运动情况。在静态障碍物环境中的仿真结果显示,Q‑table方法具有更高的学习效率,并且更快地达到稳定状态,且收敛过程较为稳定。相比之下,在动态障碍物环境下,需要考虑更多的因素,同时需要更大的状态表,这意味着系统需要更多的时间来收敛到一个解决方案。试验结果表明Q‑table清晰易懂,适用简化的、输入量较小的自学系统,神经网络适用于更大和更复杂的系统。
然而,当前算法在搜救机器人需要快速做出反应以避免动态障碍物时表现出一些不足。算法采用了一种需要停止搜救机器人并进行两次测量的策略,以确定障碍物是移动的还是静止的。这导致搜救机器人在判断障碍物性质时需要额外的时间,从而减缓了其对动态环境的适应能力。这种策略会导致搜救机器人的运动模式呈现出不连续的特征,在实际场景中运动通常是连续的。未来工作的重点是改进搜救机器人的碰撞检测,提高运行速度,并优化奖励函数以减弱复杂环境的影响。增强奖励函数的任务相关性,考虑任务中的关键因素,以确保奖励函数能够有效地引导机器人学习。另外,还计划扩展机器人的动作列表,包括停止、加速、减速等动作,以更全面地模拟实际场景中的机器人行为,从而提高其适应性和灵活性。
参考文献
郭娜,李彩虹,王迪,等. 结合预测和模糊控制的移动机器人路径规划[J].计算机工程与应用, 2020, 56(8): 104‑109. [百度学术]
GUO Na, LI Caihong, WANG Di, et al. Path planning for mobile robots combining predictive and fuzzy control[J]. Computer Engineering and Applications, 2020, 56(8): 104-109. [百度学术]
王珂, 穆朝絮, 蔡光斌, 等. 基于安全自适应强化学习的自主避障控制方法[J]. 中国科学: 信息科学, 2022, 52(9): 1672-1686. [百度学术]
WANG Ke, MU Chaoxu, CAI Guangbin, et al. Autonomous obstacle avoidance control method based on secure adaptive reinforcement learning[J]. Chinese Science: Information Science, 2022, 52(9): 1672-1686. [百度学术]
AI Bo, JIA Maoxin, XU Hanwen, et al. Coverage path planning for maritime search and rescue using reinforcement learning[J]. Ocean Engineering, 2021, 241(1): 110098. [百度学术]
段建民, 陈强龙. 利用先验知识的Q-learning路径规划算法研究[J].电光与控制, 2019, 26(9): 29-33. [百度学术]
DUAN Jianmin,CHEN Qianglong. Research on Q-learning path planning algorithm using prior knowledge[J]. Electro Optics and Control, 2019, 26(9): 29-33. [百度学术]
CHEN C, CHEN X Q, MA F, et al. A knowledge-free path planning approach for smart ships based on reinforcement learning[J]. Ocean Engineering, 2019, 189:106299. [百度学术]
王兵, 吴洪亮, 牛新征. 基于改进势场法的机器人路径规划[J]. 计算机科学, 2022, 49(7): 196-203. [百度学术]
WANG Bing, WU Hongliang, NIU Xinzheng. Robot path planning based on improved potential field method[J]. Computer Science, 2022, 49(7): 196-203. [百度学术]
宋勇, 李贻斌, 李彩虹. 移动机器人路径规划强化学习的初始化[J]. 控制理论与应用, 2012, 29(12): 1623-1628. [百度学术]
SONG Yong, LI Yibin, LI Caihong. Initialization in reinforcement learning for mobile robots path planning[J]. Control Theory & Applications, 2012, 29(12): 1623-1628. [百度学术]
卫玉梁,靳伍银.基于神经网络Q-learning算法的智能车路径规划[J].火力与指挥控制, 2019(2): 46-49. [百度学术]
WEI Yuliang, JIN Wuyin. Intelligent vehicle path planning based on neural network Q-learning algorithm[J]. Fire and Command Control, 2019(2): 46-49. [百度学术]
LI Z, LIU W, LI L, et al. Path following method for AUV based on Q-learning and RBF neural network[J]. Journal of Northwestern Polytechnical University, 2021, 39(3): 477-483. [百度学术]
徐晓苏, 袁杰. 基于改进强化学习的移动机器人路径规划方法[J]. 中国惯性技术学报, 2019, 27(3): 314-320. [百度学术]
XU Xiaosu, YUAN Jie. A path planning method for mobile robots based on improved reinforcement learning[J]. Chinese Journal of Inertial Technology, 2019, 27(3): 314-320. [百度学术]
ASLI A E N, ROGHAIR J, JANNESARI A. Energy-aware goal selection and path planning of UAV systems via reinforcement learning[J]. arXiv-CS-Artificial Intelligence, 2019. DOI: arxiv-1909.12217. [百度学术]
WANG Y H, LI T H S, LIN C J. Backward Q-learning: The combination of Sarsa algorithm and Q-learning[J]. Engineering Applications of Artificial Intelligence, 2013, 26(9): 2184-2193. [百度学术]
尹旷, 王红斌, 方健, 等. 基于强化学习的移动机器人路径规划优化[J]. 电子测量技术, 2021, 44(10): 91-95. [百度学术]
YIN Kuang, WANG Hongbin, FANG Jian, et al. Optimization of mobile robot path planning based on reinforcement learning[J]. Electronic Measurement Technology, 2021, 44(10): 91-95. [百度学术]
王健, 张平陆, 赵忠英, 等. 结合神经网络和Q(λ)‑learning的路径规划方法[J]. 自动化与仪表, 2019, 34(9): 1-4. [百度学术]
WANG Jian, ZHANG Pinglu, ZHAO Zhongying, et al. Path planning method based on neural network and Q(λ)‑learning[J]. Automation and Instrumentation, 2019, 34(9): 1-4. [百度学术]
MAOUDJ A, HENTOUT A. Optimal path planning approach based on Q-learning algorithm for mobile robots[J].Applied Soft Computing, 2020, 97: 106796. [百度学术]