基于多模态深度强化学习的端到端无人车运动规划-江苏冠超物流科技有限公司合肥分公司

0 引言

随着机器人技术的发展不断推进，使得机器人能够执行越来越复杂的任务，包括无人车的运动规划任务。无人车具有多种应用，如物流输送、地质勘探、无人驾驶车辆、军事侦察等领域。然而，要在复杂的、不平整的地形上实现可靠的运动仍然是一个挑战。近年来，随着深度学习技术的发展，许多研究集中于学习机器人如何在不同的环境中导航，例如在城市环境下的驾驶[1-3]、在野外环境下的路径规划[4]、在复杂环境进行勘探任务[5-8]等。

经研究人类行走时的眼球运动，文献[9]指出，人类在适应环境特征时高度依赖身体和眼睛的协调，其目光也随之变化。这一发现引发了使用视觉感官输入改善机器人在不平坦地形上行动的想法。虽然机器人在没有视觉信息的情况下仍能行动于不平坦的地形，但其无法避开大型障碍物。因此，智能体需要感知远距离障碍物，并动态地调整其运动轨迹以避免碰撞。随后，学者们开始探究将视觉信息引入各种算法以解决机器人运动规划问题的方法。

1　相关工作

文献[10-11]使用卷积神经网络(convolutionalneural network, CNN)将图像输入映射到状态空间，从而解决了机器人任务中的视觉感知问题，但需要大量的标记数据才能进行训练，并且这些数据必须具有较高的质量。文献[12-13]提出了一种利用自我监督学习(self-supervised learning)来学习机器人控制的方法，但是这种方法需要额外的预训练过程，且训练过程较为复杂。元学习是一种解决新任务的机器学习方法，文献[14]采用基于元学习的方法优化机器人路径规划和导航避障的性能，且可以有效减少过度拟合和样本效率低的问题。但是，元学习需要大量的计算资源和算法调试，且在不同的任务和场景下表现不一定理想。文献[15]将近距离图和动态窗口方法结合起来，利用两种方法的优势和特性，集成了无缝的定位技术。但这种结合算法会增加算法复杂度，导致实时性受到影响且环境的精细程度要求较高。

还有一些学者研究了将多种模态输入结合使用的方法。文献[16]使用了感觉输入、视觉输入和力输入等多种信息解决机器人操控问题，但这种方法需要对模态之间的关系进行建模，增加了研究难度。文献[17]将本体感状态和激光雷达输入相结合，使用多层感知器(multi-layer perceptron,MLP)学习机器人的运动。文献[18]将指尖触觉感应、关节扭矩和本体感觉进行堆叠作为输入，结合强化学习实现了手指抓握，但没考虑到各模态之间的相关性。文献[19]将GPS 和IMU 数据进行对齐和融合，输出无人车的舵机数据，但该方法泛化性不足，只适用简单环境。文献[20]采用了深度神经网络和多模态传感器融合，以实现无人车的端到端控制。这项工作成功地整合了来自摄像头、激光雷达和GPS 传感器的信息，为无人车在城市环境中的导航提供了强大的能力。文献[21]利用分层强化学习(hierarchical reinforcement learning,HRL)来解决机器人运动控制问题，同时将高层策略和低层动作结合起来进行学习，但分层强化学习这种方法需要设计多个层级，并且需要手动指定层级之间的联系，训练过程更为复杂。

总的来说，研究人员正在探索各种方法来改进机器人的运动技能，包括深度强化学习、多传感器数据融合和不同的学习算法。这些方法都有其优点和局限性，需要根据具体应用情况来选择最合适的方法。

为了解决上述算法中调参复杂、算法复杂度高、泛化能力不足等问题，本文在多模态信息融合的基础上进行优化设计，提出了一种端到端运动学习策略。该策略基于多模态深度强化学习，融合视觉信息和本体感知状态，并在深度强化学习PPO 算法的基础上充分考虑了机器人避障和运动效率等多方面因素，在图1 所示的不同模拟环境进行训练，旨在提高移动机器人的导航成功率。通过在大量场景中学习最佳状态-动作映射网络，并设计合理的奖励函数和网络结构，在仿真平台Gym上进行了相关仿真实验，本文方法的实验结果表现突出，取得了显著的成效。本文创新点包括：

(1) 提出了一种设计合理的观测状态空间与环境交互机制的多模态Transformer 融合模型——TransProAct。

(2) 将深度强化学习算法模型融入总体导航框架，与多模态Transformer 模型、视觉信息、本体感知状态、仿真平台相互配合，有助于复杂场景下的导航避障。

(3) 将基于视觉的深度强化学习策略应用于无人车，使其在野外环境中避障碍物且应对起伏不平的地面。

(4) 将多模态延迟随机化引入模型解决模拟和现实世界的差异。

图1 模拟环境总览

2　基于多模态深度强化学习的运动规划

2.1　问题描述

对机器人在复杂环境中导航时，面临着诸多挑战，例如狭窄的通道、障碍物以及不可预测的环境变化等。为了实现快速、准确地到达局部目标点，本文设计了一种基于多模态深度强化学习的端到端运动规划策略。

该策略将多模态Transformer 模型、视觉深度信息、本体感知状态、仿真平台和深度强化学习相互配合，如图2 所示。本文选用了一个能够模拟复杂环境的仿真平台——Gym，机器人在该平台中能够以实体的形式存在。该仿真平台能够实时提供机器人在当前位置所采集到的深度图像，并实时检测机器人是否发生碰撞等。对于每一个导航目标任务，仿真平台会给定机器人的初始位置和机器人距离全局目标点的相对位置。为了确保运动规划的稳定性，本文在训练智能体时引入了经验回放机制和探索策略。

本文运动规划策略的视觉信息输入为当前时刻的深度图信息，本体感知信息包括当前机器人的相对位置、旋转、速度和方向信息等。输出是机器人当前时刻所采取的动作的概率分布。该策略有两个训练目标：①运动任务(用于平坦地形)，该任务主要是测试机器人的避障能力，机器人需要向前运动并避免发生碰撞，直到机器人行动步数达到步数限制。②目标任务(用于野外环境)，测试机器人在复杂环境的泛化能力和目标跟踪能力，机器人需要在安全行驶的同时并采取尽量少的动作运动到目标点。如果机器人在运动过程中翻车或处于不安全状态，则认为本次运动任务失败。

图2 总体规划架构

2.2　Transfomer基本模型

Transformer 是一种基于Attention 机制的模型，最早由谷歌提出，起源于论文Attention is all youneed[19]。相比传统的RNN、CNN 模型，Transformer 模型抛弃了序列模型的限制，只使用了Attention 机制，极大地提升了模型的并行计算能力和训练效率。由于其出色的表现，Transformer 模型已经广泛应用于自然语言处理领域，例如机器翻译、文本识别和问答模型等。其特点在于encoder-decoder 架构，其中encoder 层可以并行计算，大大减少了训练时间。

本文在Transformer 架构的基础上处理多模态信息的融合，将深度图像和本体感知状态信息作为两个不同的输入序列，采用了self-attention 机制来捕捉输入序列中不同位置之间的依赖关系，从而更好地解决了长期依赖问题。

2.3　强化学习基本模型

强化学习自提出以来就受到了国内外学者的广泛关注，相关理论和应用研究都得到了不同程度的发展。由于其“交互式学习”和“试错学习”的特点，强化学习适用于很多问题的决策，已成为机器人控制领域的研究热点，包括本文所研究的运动规划任务。

绝大部分强化学习过程可以用马尔可夫决策过程描述，机器人与环境之间的相互作用建模为MDP( 马尔可夫决策过程)(S,A,P,R,H),S为状态，A为动作，P(s'|s,a)为转移函数，R为奖励函数，H为有限集域，γ 为折现因子。Agent 学习由θ 参数化的一项策略πθ，输出以当前状态为条件的动作分布。Agent 的目标是学习折扣回报最大化的θ:

其中R 为时间步长t 的报酬，τ~pθ (τ)为轨迹。

3 多模态Transformer融合方法

本文提出了一种全新的多模态Transformer 融合模型——TransProAct，该模型融合本体感知状态和视觉信息，用于无人车运动规划任务。其中，视觉信息输入为4 帧的深度信息，形状为(64,64,4)。本体感知状态输入是一个49-D 的矢量，包括机器人的转向、速度、相对位置和IMU读数等。为了促进融合这两种模式的领域特定特征，本文分别对本体感知状态信息和视觉信息使用两种独立的编码器，并在潜在空间中统一表示。图3 为该模型的网络框架图。模型包含两个部分：

(1) 针对本体感知状态和视觉信息，设计两个独立模态编码器，并将两种模态投影到一个潜在特征空间中。

(2) 一个共享的Transformer 编码器，对本体感知特征和视觉特征进行跨模态自我注意力，以及对视觉标记进行空间注意力，以预测动作。

3.1　独立模态编码器

本文引入两个独立编码器来预处理视觉信息和本体感知状态信息

图3 TransProAct 网络框架

在给定ConvNet 编码器中，有一个形状为C×N×N 的空间视觉特征，其中C为通道号，N为宽度和高度。将这些空间特征分割为N×N个不同的c 维标记嵌入(图3 中用黄色标记表示)，每个标记对应一个局部可视区域。使用线性层将本体感知状态的特征投射到tprop的c 维标记中(图3 所示为绿色部分)。总共有N×N+1个标记，通过式(1)~(2)获得：

式中：W^prop 和b^prop 分别为本体感知标记线性投影的权重和偏差；T₀ 为输入标记的序列，t_i,j^visual为视觉特征E_i,j^visual 在空间位置(i,j)的标记。接下来，用T_m ∈ R_{(N2 + 1)×C}表示经过m 层Transformer 编码器后的标记序列。

3.2　Transformer编码器

本文引入了一个共享的Transformer编码器，利用Transformer中的自注意力机制(self-attention, SA)融合预处理后的视觉信息标记和本体感知状态标记。

在Transformer 中，SA是一种经过缩放的点积注意力机制。其关键在于允许模型自动分配注意力到输入序列的不同部分，从而更有效地融合多模态信息。这意味着模型能够根据输入内容的不同动态地调整对各部分的关注程度，从而提高了信息融合的效率和准确性。这个特性在处理多模态数据，如视觉和本体感知数据时尤为有用，因为它有助于模型更好地理解和利用不同模态数据之间的关联，从而提高多模态信息融合的效果。

SA机制首先对每个输入标记T进行单独的线性变换，然后计算输入标记的加权和，并通过Softmax 操作进行归一化。权重Wsum和值Tv之间进行矩阵乘法后，将结果转发到具有参数USA的线性层，并将其表示为输出SA(T)。具体过程为

式中：D为自我注意层的维度。

每个Transformer 编码器层有4 个主要组成部分： 1 个自注意力层、2 个具有残差连接的LayerNorm 层和1 个两层MLP。其中，自注意力层实现了规模化的点积注意机制。这些编码器层能够学习到输入数据中的相关性和重要性，并将多模态信息融合在一起，如图3(右下)所示。

最后通过堆叠L 个Transformer 编码器层来实现多层自我注意，使得模型可以在多个抽象层次上融合这两种模态的特征。此外，基于Transformer 的融合方法可以用于空间推理，因为每个视觉标记都具有独立的区域感受野。自注意力机制使得智能体能够明确关注相关的视觉区域。然而，对于模态级融合，直接在所有标记上应用池化操作会导致本体感知信息的稀释，因为视觉标记的数量远远超过本体感知标记的数量，为了平衡这两种模态的信息，本文首先分别存储每个模态的信息，计算来自同一模态的所有标记的平均值，以获得单个特征向量，然后将两种模态的特征向量拼接起来，使用MLP 将连接的向量投影到最终的输出向量中。

4　深度强化学习算法

4.1　PPO算法

PPO(proximal policy optimization)算法是一种基于策略梯度的算法，其采用了Actor-Critic 架构，并集成了双网络的算法结构，例如DQN[22] 和DDPG[23]算法。相比其他算法，PPO算法更适合解决连续空间动作下的问题，并具有收敛速度快、样本效率高等优点。

PPO 算法已在工程应用中得到广泛应用。包括：自动驾驶汽车，使车辆能够在城市交通中智能驾驶；机器人控制领域，协助机械臂执行复杂任务；电子游戏开发，改进虚拟角色的智能行为；金融交易，自动优化投资决策。PPO 通过其近端策略优化方法，提高了学习的稳定性和样本效率，因此成为处理各种工程挑战的强大工具，适用于多个领域，推动了强化学习在实际工程中的广泛应用。

本文采用PPO 算法训练无人车的运动规划。针对具体的任务环境进行了大量的参数调整和实验验证，以保证算法的有效性和稳定性。

策略网络负责生成策略，其网络参数为θ；价值网络通过计算优势函数At 来评估当前策略；ε 为剪切参数，一般为0.1~0.2；πθ (at|st )为待优化的网络策略；πθold (at|st ) 为当前收集数据的旧策略网络。更新过程中，PPO算法利用式 (7) 中的剪切函数来限制策略的更新幅度。

当新旧策略之间的偏移量过大时，使用剪切项来代替，可以确保新旧策略的差异不会太大，从而使Actor 网络可以以相对平稳的方式进行更新，提高算法的收敛速度。同时也有助于减少过拟合的风险，提高算法的泛化能力。策略网络根据机器人的当前状态输出动作，当机器人执行动作后会进入下一个状态并获得新的奖励，此为一次完整交互过程，然后不断将机器人与环境交互数据进行存储，用于更新策略网络和价值网络，获得相对最优的网络参数。本文PPO 算法的价值和策略网络共享图3 中所用的本体感知状态和视觉信息编码器。

4.2　奖励函数设计

奖励函数的设计是强化学习中很重要的一环，奖励函数是连接人与算法的沟通桥梁，奖励函数设计的合理性决定了模型是否能够收敛，所以必须保证奖励函数的设计可以使机器人获得最大化收益的同时也能达到实验目的。

4.2.1　主线奖励

本文所有实验使用相同的主线奖励函数，Rmove 为机器人向前移动的奖励。在平坦地形中，该奖励由机器人沿着x 轴的移动速度来定义；在

山地环境中，该奖励由机器人沿着山顶目标方向来定义。Ralive 鼓励机器人尽可能地活得更久。该奖励在每个时间步都会给出1.0 的正奖励，直到机器人终止运行。机器人如果发生摔倒或撞到障碍物等危险行为，将会终止运行。如式(8)所示：

R = αmoveRmove + αaliveRalive + Rfall (8)

在本文所有实验中，αmove = 1，αalive = 0.1，过大或者过小的值会导致仿真实验中无人车呈现不规则运动。

4.2.2　辅助奖励

本文同时使用辅助奖励来解决稀疏奖励问题：

Rassit = K × Rsphere + Robs + Rrot (9)

式中：Rsphere 为机器人收集每个球所获得的奖励；K为当前时间步收集到的球的数量；Robs 为机器人在当前时间步触碰到障碍(obstacle)时获得的惩罚；Rrot 为机器人在当前时间步的安全状态，由机器人的旋转矩阵(rotation)所定义。

5　多模态延迟与域随机化

在真实环境中，包括各种障碍物、动态环境和不平坦地形，部署强化学习策略仍然是一项极具挑战性的任务。除了仿真和真实世界之间的视觉外观不一致性，控制流程的延迟对强化学习智能体也是一个严重的问题，延迟会导致执行不准确、不安全、学习困难、不稳定以及策略的不适用等一系列挑战。本文提出多模态延迟随机化(multimodaldelay randomization, MMDR)和域随机化的方法来解决在训练强化学习智能体时出现的这个问题。具体而言，即通过使用过去的观测数据，以随机化的时间间隔进行采样，模拟真实硬件的延迟，包括本体感知和视觉感知。这一方法有助于克服在部署强化学习策略时可能遇到的挑战。

5.1　多模态延迟随机化

在多模态的机器人系统中，当从多个感知模式(如视觉和本体感知)获取信息时，不同传感器之间的延迟差异非常大。本文提出一种多模态延迟随机化的方法，明确了来自机器人系统不同来源的延迟，如图4 所示。

图4 多模态延迟来源

为了模拟与真实世界中相同的控制流程，多模态延迟随机化提供了在仿真中随机化延迟和异步的多模态观测。本文分别对本体感知状态和视觉观测进行随机化采样，这样可以利用领域特定的特征，并为不同的模态模拟独立的延迟。

为了保持强化学习仿真的准确性，仿真频率设置为机器人控制频率的2 倍及以上。该方法在每个仿真步骤中读取本体感知状态，并使用一个固定长度的队列来存储最近的历史观测。本文还假设真实世界中的本体感知状态变化平滑。因此，本文对每个回合采样本体感知延迟，并使用线性插值根据整个缓冲区中相邻两个状态之间的采样延迟来计算延迟观测。

视觉观测表示为4 个堆叠的深度图像，以保持时间信息。如果在训练过程中视觉观测延迟与本体感知状态使用相同的随机延迟，这样会导致从一帧到下一帧的过渡不平滑。为了模拟较低频率下视觉观测的感知延迟，本文在每个控制步骤中获取模拟的视觉观测，并将最近的帧存储到一个队列中。如图5 所示，本文将最近的4k 深度图作为视觉观测缓冲区，将整个缓冲区分成四个子缓冲区，然后从每个子缓冲区中采样一个深度图来创建具有随机延迟的视觉输入。

图5 视觉延迟随机化

5.2　域随机化

本文在所有实验中均采用域随机化技术进行训练。在训练过程中，本文不仅对本体感知状态进行了域随机化，还对深度视觉图像进行了域随

机化。如图6 所示，左侧区域展示了无人车在当前时间步所处的模拟环境场景，右侧部分呈现了无人车视觉传感器所捕捉的深度视觉图像。在右侧深度视觉图像中，白色噪点是通过视觉图像域随机化引入的噪声模拟——随机选取3~30 个数值作为(64, 64)分辨率深度视觉图像的输入参数，并将这些输入参数设置为最大读数。这一处理方式，成功地模拟了现实世界中复杂且多变的噪声信息，使模拟环境更加贴近真实场景。

图6 深度图像域随机化

6　仿真分析

6.1　仿真环境

本实验的仿真环境是基于PyBullet 的Gym 环境。Gym仿真平台具有许多优点，例如提供真实感的物理仿真、灵活的机器人控制、可定制的环境、高效的计算性能以及开放源代码等。此外，Gym环境还提供了可视化工具，可以方便地观察机器人在仿真环境中的运动轨迹、关节角度等状态信息。

6.2　仿真结果及分析

为了验证在复杂环境中视觉信息的重要性以及本文Transformer 模型的有效性，本文方法将与以下几种基线方法进行比较：仅使用本体感知状态的状态基线State-Only；仅使用视觉观测的深度基线Depth-Only：使用本体感知状态和视觉观测简单拼接的State-Depth-Concat 基线，State-Depth-Concat 使用线性投影将视觉特征映射到与本体感知特征相同维度的特征向量，然后将这两个特征连接起来输入到值函数和策略网络中。此外，本文还引入了文献[21]的分层强化学习(HRL)基线进行比较。

本文一共设计了4 个模拟环境，这些环境有不同的地形、障碍物以及需要收集的红色球体。增加红色球体的目的是以测试机器人是否能够根据其外观区分物体及其相关功能。在普通环境中，所有的障碍物和球体都是随机初始化的，并在整个过程中保持静态。环境包括：①无小球的平坦地形，随机障碍物。②有小球的平坦地形，随机障碍物。③无小球的平坦地形，随机动态移动障碍物。④野外山岭环境，山顶有一个目标点。在图1中展示了部分环境。表1为部分训练参数的详细信息。

本文通过平均回合奖励和2 个特定的评估指标来评估策略：①机器人沿其目标方向移动的距离(单位为m)；②每回合与障碍物碰撞的次数(长度为1 k 步)。

实验结果如图7(a)和表2 所示，与Depth-Only和State-Only 基线相比，本文方法和State-Depth-Concat 基线在仅存在障碍的平坦地形中都表现出色，表明在复杂环境中使用视觉对于运动有明显的好处。而当环境外观相对简单时，Depth-Only基线可以在不使用本体感觉状态的情况下学习出一个合理的策略。这表明，智能体可以通过视觉观察推断出部分本体感觉状态，从而实现策略学习，因此建模不同模态之间的相关性和更好的融合技术对于获得优秀的策略至关重要。此外，在这些环境中，相对简单的State-Depth-Concat 基线表现与本文的TransProAct模型相当。可能这是因为区分障碍物和平坦地形并不是一个感知上复杂的任务，因此简单的State-Depth 拼接方式足以用于策略学习。State-Only 基线由于机器人移动太少，无法与障碍物碰撞，无法在整个环境中推广，因此无碰撞发生。与HRL基线模型相比，本文方法在移动距离和碰撞次数两个指标优于HRL基线8.1%和41.3%。

图7(b)为添加红色小球的环境平均奖励数据。由实验过程可以观察到，在有额外球体的情况下，所有方法的样本效率都下降了。虽然球体可以提供更高的回报可能性，但是它们增加了两种复杂性：①球体可能吸引智能体进入容易被卡住的区域；②尽管球体在物理上不会阻碍智能体，但它们可能会遮挡智能体的视野，并且在深度图中难以与障碍物区分开来。随着环境复杂度的增加，本文方法始终在最终性能和样本效率方面优于HRL 基线和State-Depth-Concat 基线。表3 记录了平均移动距离、碰撞次数和收集球体获得的奖励。本文方法获得较可观的小球奖励，移动距离也更长，这表明本文方法更能适应复杂环境。

为了评估该方法长期规划的能力，本文在一个有移动障碍物的环境中进行了比较。图7(c)和表4 显示State-Only 基线和Depth-Only 基线的性能都很差。当环境够复杂时，HRL策略不能有效地融合来自不同模态的信息。虽然State-Depth-Concat 基线在距离方面表现更好，但它比本文方法有更频繁的碰撞。这表明State-Depth-Concat 基线无法识别移动的障碍物，而本文方法预测了障碍物的移动，并绕道以避免潜在的碰撞。在这种情况下，本文方法得到的策略在平均回合奖励方面表现更好，但并没有更长的移动距离。可以推断，State-Depth-Concat 基线很难跟踪环境中障碍物的运动。另一方面，由于Transformer 提供了一种自我注意机制来建模视觉区域关系，因此使用本文方法更容易学习和预测多个障碍物的运动。

本文在野外地形评估了所有方法。图7(d)和表5 显示了每种方法的训练曲线和平均移动距离，可以看出，本文方法的结果有很大的提升。State-Depth-Concat基线比Depth-Only基线只有些许的改善。其原因为，用简单的拼接融合多模态信息，很容易失去视觉信息的空间结构。而HRL基线在平均移动距离方面表现更好，但它并未获得更高的回合收益，这表明HRL基线无法有效利用视觉接近目标。本文基于ransformer 的方法可以更好地捕捉空间信息，例如地形的全局和局部特征，并且比简单的拼接更成功地融合了视觉和本体感觉信息

图7 评估曲线

本文进一步评估了该方法的泛化能力，如表6所示。通过把在随机障碍下训练好的模型转移到更窄、数量更多的障碍物环境中。与State-Depth-Concat 基线和HRL 基线相比，本文跨模态Transformer 的方法在更窄、数量更多的障碍物环境中碰撞次数更少且平均移动得更远。这表明本文的方法在未知环境中具有更强的泛化能力，能够快速适应各种未知环境。

本文进一步在普通环境(包括静动态障碍物、有无小球的平地环境)和野外(山地)环境中对本文算法、State-Depth-Concat 和HRL 三种算法的策略函数(policy function, PF)和价值函数(value function, VF)的平均损失值进行比较，如图8 所示。这一步骤旨在深入了解这些算法在不同环境条件下的性能表现。

根据图8(a)可以观察到在简单环境中，三种算法的PF LOSS呈现出相当大的波动。这表明这些算法在训练过程中持续地尝试新的动作策略。这种探索行为是因为它们试图找到最优的策略以最大化奖励，但这也导致了训练过程中的不稳定性。另一方面，VF LOSS 相对稳定，因为它是通过与环境的互动来估计值函数的。这种稳定性表明，值函数的估计受到了相对较少的波动影响，可能是因为值函数估计是基于与环境的反馈和奖励信号进行的，这些信号在简单环境中相对一致。

图8 策略/价值函数的平均损

与Depth-State-Concat 和HRL算法相比，本文算法在PF/VF LOSS方面表现更为稳定。这表明本文算法更有效地结合了视觉信息和本体感知状态，以优化策略，从而在简单环境中更好地实现了奖励的最大化。

图8(b)在复杂的山地环境中，三种算法的PF/VF LOSS 值呈现了整体上升的趋势。这一趋势可以归因于环境的高度不确定性和复杂性，这使得策略的优化变得更加具有挑战性。在这具有挑战性的环境中，三种算法都面临更大的困难，需要更多的探索和学习来适应环境的复杂性。在经过1 000 回合的训练后，本文算法PF LOSS呈现出了明显的下降趋势，同时，VF LOSS 也表现出逐渐收敛的趋势。这表明，相较于其他算法，本文算法更快地找到了适应复杂环境的有效策略，并且逐渐趋向于收敛状态。在复杂环境下本文算法的卓越表现强调了该算法在应对高度挑战性任务时的优越性和鲁棒性。

7　结论

本文提出了一种新的TransProAct 模型，用于融合本体感知和视觉信息，并采用强化学习PPO算法来控制无人车的运动。通过引入视觉信息和本体感知状态，本文证明了无人车可以成功地通过障碍物和移动障碍物，并且在仿真的挑战性地形(如山地)中也能够有效地移动。此外，本文还证明了该方法在未见过的环境中具有更好的泛化能力，这表明TransProAct 模型提供了一种有效的本体感知和视觉信息融合机制，并为多模态深度强化学习带来了新的展望和可能性。未来计划将其部署到真实的无人车上进行验证，并考虑融合雷达[24]和其他传感器数据，以提升无人车对各种地形的识别和适应能力，使其能够更有效地应对复杂的环境和任务[25]。更好地优化多模态延迟随机化解决模拟和现实世界差异的问题，使本文的研究更具实用性和可靠性，为机器人的现实世界应用提供新的思路和方法。

参考文献：

[1] Lu Xinghao, Zhao Haiyan, Gao Bingzhao, et al.Decision-making Method of Autonomous Vehicles inUrban Environments Considering Traffic Laws[J]. IEEETransactions on Intelligent Transportation Systems,2022, 23(11): 21641-21652.

[2] Youngmin Yoon, Kyongsu Yi. Trajectory PredictionUsing Graph-based Deep Learning for LongitudinalControl of Autonomous Vehicles: A Proactive Approachfor Autonomous Driving in Urban Dynamic TrafficEnvironments[J]. IEEE Vehicular Technology Magazine,2022, 17(4): 18-27.

[3] Danilo Alves de Lima, Alessandro Corrêa Victorino. AHybrid Controller for Vision-based Navigation ofAutonomous Vehicles in Urban Environments[J]. IEEETransactions on Intelligent Transportation Systems,2016, 17(8): 2310-2323.

[4] Alejandro Puente-Castro, Daniel Rivero, Alejandro Pazos,et al. UAV Swarm Path Planning with ReinforcementLearning for Field Prospecting[J]. Applied Intelligence,2022, 52(12): 14101-14118.

[5] Wang Gongcheng, Wang Weidong, Ding Pengchao, et al.Development of a Search and Rescue Robot System forthe Underground Building Environment[J]. Journal ofField Robotics, 2023, 40(3): 655-683.

[6] Miller I D, Cladera F, Cowley A, et al. Mine TunnelExploration Using Multiple QuadrupedalRobots[J].IEEE Robotics and Automation Letters, 2020, 5(2): 2840-2847.

[7] Aracri S, Giorgio-Serchi F, Giuseppe Suaria, et al. SoftRobots for Ocean Exploration and Offshore Operations:A Perspective[J]. Soft Robotics, 2021, 8(6): 625-639.[8] Dang T, Marco Tranzatto, Khattak S, et al. Graph-basedSubterranean Exploration Path Planning Using Aerialand Legged Robots[J]. Field Robotics, 2020, 37(8): 1363-1388.

[9] Matthis J, Hayhoe M. The Functional Coupling of Gazeand Gait When Walking Over Real-world Rough Terrain[J]. Journal of Vision, 2016, 16(12): 766.

[10] Liu Zhe, Liu Qiming, Tang Ling, et al. VisuomotorReinforcement Learning for Multirobot CooperativeNavigation[J]. IEEE Transactions on Automation Scienceand Engineering, 2022, 19(4): 3234-3245.

[11] Levine S, Pastor P, Krizhevsky A, et al. Learning HandeyeCoordination for Robotic Grasping with DeepLearning and Large-scale Data Collection[J]. TheInternational Journal of Robotics Research, 2018, 37(4/5): 421-436.

[12] Sofman B, Lin E, Bagnell J A, et al. Improving RobotNavigation Through Self-supervised Online Learning[J].Journal of Field Robotics, 2006, 23(11/12): 1059-1075.

[13] Jeong R, Aytar Y, Khosid D, et al. Self-supervised Sim-torealAdaptation for Visual Robotic Manipulation[C]//2020 IEEE International Conference on Robotics andAutomation (ICRA). Piscataway: IEEE, 2020: 2718-2724.

[14] Wen Shuhuan, Wen Zeteng, Zhang Di, et al. A MultirobotPath-planning Algorithm for AutonomousNavigation Using Meta-reinforcement Learning Basedon Transfer Learning[J]. Applied Soft Computing, 2021,110: 107605.

[15] Pablo Urcola, María-Teresa Lorente, José L Villarroel, etal. Robust Navigation and Seamless Localization forCarlike Robots in Indoor-outdoor Environments[J].Journal of Field Robotics, 2017, 34(4): 704-735.

[16] Tian S, Ebert F, Jayaraman D, et al. Manipulation byFeel: Touch-based Control with Deep Predictive Models[C]//2019 International Conference on Robotics andAutomation (ICRA). Piscataway: IEEE, 2019: 818-824.

[17] Escontrela A, Yu G, Xu Peng, et al. Zero-shot TerrainGeneralization for Visual Locomotion Policies[EB/OL].(2020-11-11) [2023-05-11]. https://arxiv. org/abs/2011.05513.

[18] Liang Hongzhuo, Cong Lin, Norman Hendrich, et al.Multifingered Grasping Based on MultimodalReinforcement Learning[J]. IEEE Robotics andAutomation Letters, 2022, 7(2): 1174-1181.

[19] Vaswani A, Shazeer N, Parmar N, et al. Attention Is AllYou Need[C]//Proceedings of the 31st InternationalConference on Neural Information Processing Systems.Red Hook: Curran Associates Inc., 2017: 6000-6010.

[20] Li Zhenyu, Zhou Aiguo, Pu Jiakun, et al. Multi-modalNeural Feature Fusion for Automatic Driving ThroughPerception-aware Path Planning[J]. IEEE Access, 2021,9: 142782-142794.

[21] Jain D, Iscen A, Caluwaerts K. HierarchicalReinforcement Learning for Quadruped Locomotion[C]//2019 IEEE/RSJ International Conference on IntelligentRobots and Systems (IROS). Piscataway: IEEE, 2019:7551-7557.

[22] Li Yaxin, Chen Yan, Yang Zhen, et al. Design of a MultimodalSensor Fusion Unmanned Vehicle System Basedon Computer Vision[J]. Journal of Physics: ConferenceSeries, 2023, 2504(1): 012033.

[23] Zhang Lijuan, Peng Jiabin, Yi Jiabin, et al. A StatedecompositionDDPG Algorithm for UAV AutonomousNavigation in 3-D Complex Environments[J]. IEEEInternet of Things Journal, 2024, 11(6): 10778-10790.

[24] 张福海, 李宁, 袁儒鹏, 等. 基于强化学习的机器人路径规划算法[J]. 华中科技大学学报(自然科学版), 2018, 46(12): 65-70.Zhang Fuhai, Li Ning, Yuan Rupeng, et al. Robot PathPlanning Algorithm Based on Reinforcement Learning[J]. Journal of Huazhong University of Science andTechnology(Natural Science Edition), 2018, 46(12):65-70.

[25] 赵烈海, 李大鹏. 高密度场景下基于改进A*算法的无人机路径规划[J]. 无线电通信技术, 2024, 50(4): 713-719.Zhao Liehai, Li Dapeng. Unmanned Aerial Vehicle PathPlanning Based on Improved A* Algorithm in HighdensityScenarios[J]. Radio Communications Technology,2024, 50(4): 713-719.

来源：系统仿真学报,第36卷第11期

作者：丁开源1-2，艾斯卡尔·艾木都拉1-2*，朱斌”，伊克萨尼·普尔凯提"，马正堂1

（1.新疆大学计算机科学与技术学院，新疆乌鲁木齐830017；2.新疆信号检测与处理重点实验室，新疆乌鲁木齐830017；3.清华大学自动化系，北京100084)