
科学研究与应用
Journal of Scientific Research and Applications
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-7071(P)
- ISSN:3080-0757(O)
- 期刊分类:科学技术
- 出版周期:月刊
- 投稿量:5
- 浏览量:658
相关文章
暂无数据
融合模仿学习的深度强化学习自动驾驶路径规划方法研究
Researchon Deep Reinforcement Learning-Based Autonomous Driving Path Planning Methods Integrating Imitation Learning
引言
自动驾驶系统通常被划分为感知、决策、规划与控制四个子模块,其中路径规划负责在动态交通环境中生成安全、舒适、高效的行驶轨迹,是衔接高层决策与底层控制的核心环节。传统规划方法依赖高精地图、有限状态机与人工势场等显式建模手段,虽在结构化场景中表现稳定,但面临城市混合交通、施工改道等复杂工况时,规则库呈指数级膨胀,维护成本高昂,且对感知误差敏感。
近年来,以深度强化学习(Deep Reinforcement Learning,DRL)为代表的端到端决策方法受到学界与产业界广泛关注。DRL通过“试错—反馈”机制自适应地优化策略网络,可避免显式建模带来的维度灾难。然而,当奖励信号稀疏、延迟甚至存在噪声时,智能体难以获得足够的有效监督,导致价值估计偏差过大、策略梯度方差爆炸,训练过程陷入“盲目探索”或局部最优。自动驾驶恰是此类问题的典型代表:车辆仅在发生碰撞或完成任务时才获得显著奖励,中间过程缺乏密集监督。
模仿学习(Imitation Learning,IL)通过专家演示数据将“状态—动作”映射转化为监督学习任务,可在零奖励条件下快速获得可行策略,但其性能上限受限于专家数据质量与分布,且容易出现协变量漂移(Covariate Shift)。为此,研究者尝试将IL与RL融合,利用专家数据加速早期探索,再借助强化学习突破演示瓶颈。代表性工作包括DDPGfD、DQfD、GAIL、SQIL等,但面向自动驾驶路径规划这一高维连续控制任务,如何设计轻量级、易部署的融合框架,并在真实数据稀缺场景下保持鲁棒性,仍是亟待解决的难题。
基于上述背景,本文提出融合模仿学习的TD3D算法,并在开源仿真平台highway-env中构建汇入与变道任务,系统验证其在稀疏奖励环境下的有效性。
本文主要贡献如下:
- 在TD3框架内引入“双经验池”机制,分别存储在线采样与专家演示数据,并离线计算专家Q值,缓解稀疏奖励下的价值过估计;
- 设计加权多目标损失函数,将行为克隆损失与Bellman损失统一在相同梯度下降步骤中,并采用自适应衰减策略实现平滑过渡;
- 通过消融实验与不同专家数据源的对比,验证算法对演示规模、数据质量及环境差异的鲁棒性;
- 给出工程化实现细节与超参数敏感性分析,为实车部署提供参考。
1 深度强化学习自动驾驶算法概述
强化学习是一种以“试错-反馈”机制为核心的序贯决策方法。其数学框架通常建模为马尔可夫决策过程,由五元组 描述: 为状态空间, 为动作空间, 为状态转移概率, 为即时奖励函数, 为折扣因子。智能体通过策略在环境中执行动作,获得奖励反馈,并以最大化期望折扣回报为目标进行策略迭代。在连续控制场景(如自动驾驶的加速度/转向角联合控制)中,动作空间维度高且存在时间耦合,传统离散化Q-learning类算法面临维数灾难。为此,研究者提出了多种面向连续域的深度强化学习算法:DDPG将DQN拓展至连续动作空间,采用Actor-Critic架构,以确定性策略梯度更新Actor,实现端到端连续控制。TD3针对DDPG的Q值过估计问题,引入双Critic网络与“取最小”目标值机制,并延迟Actor网络更新,显著提升了训练稳定性与策略性能。SAC在最大熵强化学习框架下引入可学习温度参数,兼顾探索与利用,在复杂动力学子任务中表现出良好的样本效率。上述算法均已在高维连续控制基准中验证有效性,其中TD3凭借实现简单、超参数少、对奖励塑形不敏感等优势,成为自动驾驶路径规划与运动控制的主流基线之一。
2 融合模仿学习的深度强化学习方法架构
2.1 TD3强化学习算法原理与局限性
TD3强化学习算法是当前主流的无模型、Actor-Critic架构连续控制算法,在MuJoCo、PyBullet等高维基准任务中样本效率与渐进性能均优于DDPG与SAC。其核心思想可概括为三点:双Critic网络:并行维护两套Q网络,取较小值构造目标,抑制过估计偏差;延迟策略更新:Actor与目标网络均以较低频率刷新,避免策略变动过快带来的误差累积;目标动作平滑:对下一状态动作注入裁剪高斯噪声,增强值估计鲁棒性。然而,在自动驾驶等稀疏奖励场景下,TD3的随机探索策略难以覆盖关键状态区域,价值网络长时间得不到有效监督信号,导致训练停滞甚至失败。
2.2 模仿学习算法介绍
模仿学习(Imitation Learning)通过专家演示数据训练智能体,使其模仿专家行为。常见方法包括行为克隆(Behavioral Cloning)和逆强化学习(Inverse RL)。行为克隆通过监督学习方式拟合状态-动作映射,简单高效,但容易受到数据分布偏移影响。
2.3 融合模仿学习的深度强化学习方法架构
2.3.1 算法提出
尽管TD3是一种性能卓越的深度强化学习算法,并在众多连续控制任务中表现优异,但在奖励信号稀疏的环境中,其探索效率仍然不足。为此,本文将强化学习与模仿学习相结合,提出融合模仿学习的深度强化学习方法架构算法,以解决稀疏奖励场景下的探索难题。
在稀疏奖励环境中,智能体仅在任务完成或发生碰撞时才能获得显著反馈,其余时刻几乎无法获得有效监督信号,导致价值网络更新缓慢甚至停滞。相比之下,模仿学习通过专家演示为策略提供明确的方向。因此,本文将专家数据引入TD3框架,构建“学生-教师”式训练结构:在每次迭代中,智能体一方面通过与环境交互获得样本,另一方面利用专家轨迹对网络进行“教学”,并结合标准TD误差进行更新,从而加速策略收敛。
2.3.2具体实现步骤
- 网络结构:完全继承TD3的六层神经网络架构,包括动作网络 、双评价网络 、及其对应的目标网络。
- 经验池构建:除标准经验回放缓冲区 外,增设专家缓冲区 ,存储格式为 ,其中 通过逆序贝尔曼方程离线计算,提供高质量的价值监督信号。
- 训练流程:每次迭代执行以下步骤:
- 从标准经验池 中采样,使用标准TD3损失函数更新Critic与Actor网络;
- 从专家经验池 中采样,引入专家演示损失,对Critic与Actor进行额外更新。
Critic演示损失:使用专家 值作为目标值,构造平滑动作 ,损失函数为:
Actor演示损失:通过行为克隆方式,约束策略输出靠近专家动作:
- 总损失函数为强化学习与模仿学习的加权融合:
其中 为演示权重,随训练过程逐渐衰减,实现“早期模仿为主、后期探索为主”的平滑过渡。
(4)目标网络更新:沿用TD3的软更新机制,保证训练稳定性:
该算法模型具有以下优势:
- 无需复杂奖励塑形:直接利用专家Q值提供高质量监督信号,缓解稀疏奖励下的价值估计困难;
- 高效探索:通过专家动作引导,智能体早期即可避免频繁碰撞,获得更多有效样本;
- 训练稳定性高:λ衰减机制实现模仿与探索的平滑切换,避免过度依赖专家数据导致的策略偏差。
3 融合模仿学习的深度强化学习方法验证
3.1试验环境搭建
本文基于highway-env仿真平台,构建两类典型驾驶任务:Merge-env1:纵向控制任务,智能体需完成高速汇入;Merge-env2:纵横向联合控制任务,智能体需完成变道并保持车道。观测空间包括自车与周围车辆的位置、速度等信息,动作为连续加速度与转向角,奖励函数设计简洁,仅在任务完成或碰撞时给予显著奖励,模拟稀疏奖励环境。专家数据来源包括:人工驾驶仿真数据(Merge-env1);INTERACTION数据集中真实驾驶轨迹(Merge-env2)。
3.2 性能分析
在强化学习问题中,网络的损失函数并不直接反映算法的性能
多数情况下,强化学习网络甚至无法收敛,或者当损失函数增大时,网络反而表现更优。因此,本文采用专门针对强化学习的评估指标来衡量网络性能。在训练过程中,我们将在每5000步执行50次测试,使用以下指标来评估算法性能:
成功率
成功指车辆完成合并任务且未发生碰撞。在Merge-env1环境中,智能体的任务是完成并道操作、完成并道动作并抵达目标位置,同时避免碰撞;在Merge-env2环境中,智能体的任务是完成并道、抵达目标位置并保持车道内行驶,同时避免碰撞。我们将计算训练过程中的成功率。
平均回合奖励
回合奖励指智能体在完整回合(即从初始状态到终止状态)内获得的总奖励,终止状态可能为碰撞。系统将计算探索完成任务回合的平均奖励值。
平均探索时长
完成任务的平均探索步长。
3.3 对比实验结果
3.3.1 Merge-env1纵向控制任务
在Merge-env1纵向控制任务中,智能体仅需完成高速汇入操作。三种算法在该场景下的性能对比如表1。
| 指标\算法 | 融合模仿学习的深度强化学习方法 | TD3 | BC |
|---|---|---|---|
| 成功率(%) | 96.2 | 91.5 | 98.1 |
| 平均回合奖励 | 8.7 | 8.5 | 6.3 |
| 平均探索步长 | 118 | 125 | 142 |
从表1可以看出,BC算法在成功率方面表现最佳,但其平均回合奖励较低,且探索步长较长,说明其策略较为保守,缺乏对环境的主动探索能力。TD3算法在奖励获取方面表现良好,但训练初期存在探索效率低的问题。TD3D算法在保持较高成功率的同时,奖励值与探索效率均优于TD3,表明融合专家数据有效提升了训练稳定性与策略质量。
3.3.2 Merge-env2纵横向联合控制任务
在Merge-env2纵横向联合控制任务中,智能体需完成变道并保持车道行驶,任务复杂度显著增加。实验结果如表2所示。
| 指标\算法 | 融合模仿学习的深度强化学习方法 | TD3 | BC |
|---|---|---|---|
| 成功率(%) | 75.4 | 8.2 | 28.6 |
| 平均回合奖励 | 156.3 | -284.7 | -98.5 |
| 平均探索步长 | 202 | 498 | 367 |
在该复杂场景中,TD3算法几乎无法完成任务,成功率极低,且平均奖励为负,表明其在稀疏奖励与高维动作空间中探索困难。BC算法虽能部分完成任务,但泛化能力差,易因分布偏移导致失败。相比之下,TD3D算法在成功率、奖励值与探索效率方面均显著优于其他两种方法,验证了融合模仿学习在复杂自动驾驶任务中的有效性。
3.3.3 专家数据来源对比分析
本文分别在Merge-env2场景中采用仿真采集数据与INTERACTION数据集中的真实驾驶轨迹作为专家演示,对比不同数据来源对TD3D算法性能的影响,结果如表3所示。
| 数据来源 | 成功率(%) | 平均回合奖励 | 平均探索步长 |
|---|---|---|---|
| 仿真数据 | 82.1 | 178.5 | 185 |
| INTERACTION数据集 | 75.4 | 156.3 | 202 |
实验结果表明,使用与训练环境分布一致的仿真数据可进一步提升TD3D算法的性能,尤其在训练初期收敛更快,策略更稳定。而INTERACTION数据集虽具备真实驾驶特性,但因环境差异与数据噪声,性能略低于仿真数据,但仍显著优于无演示数据的强化学习方法。
综上所述,融合模仿学习的深度强化学习方法在自动驾驶路径规划任务中展现出良好的工程应用潜力,尤其适用于稀疏奖励与高维动作空间下的策略学习问题。
4结论
本文提出一种融合模仿学习的TD3算法(TD3D),用于解决自动驾驶路径规划中的稀疏奖励问题。通过引入专家演示数据,指导Actor与Critic网络训练,有效提升了训练效率与策略稳定性。实验结果表明,TD3D在复杂驾驶场景中表现优于传统TD3与行为克隆方法,具备良好的工程应用前景。
未来工作将聚焦于以下方向:引入元学习机制,提升算法跨场景泛化能力,探索更高效的专家数据利用方式,降低数据依赖;推动算法在实车平台上的部署与验证,促进工程化应用。
参考文献:
- [1] 许宏鑫, 吴志周, 梁韵逸. 基于强化学习的自动驾驶汽车路径规划方法研究综述[J].计算机应用研究,2023,40(11):3211-3217.
- [2] 宋晓琳, 盛鑫, 曹昊天, 等. 基于模仿学习和强化学习的智能车辆换道行为决策[J]. 汽车工程,2021,43(01):59-67.
- [3] 高阳, 陈世福, 陆鑫. 强化学习研究综述[J]. 自动化学报,2004(01):86-100.
- [4] 闫皎洁, 张锲石, 胡希平. 基于强化学习的路径规划技术综述[J].计算机工程,2021,47(10):16-25.
