国际期刊投稿平台
登录 | 注册
当前位置: 首页 > 科学研究与应用 > 基于多智能体协作与多模态RAG的智能停车导航系统设计与实现
科学研究与应用

科学研究与应用

Journal of Scientific Research and Applications

  • 主办单位: 
    未來中國國際出版集團有限公司
  • ISSN: 
    3079-7071(P)
  • ISSN: 
    3080-0757(O)
  • 期刊分类: 
    科学技术
  • 出版周期: 
    月刊
  • 投稿量: 
    5
  • 浏览量: 
    736

相关文章

暂无数据

基于多智能体协作与多模态RAG的智能停车导航系统设计与实现

Design and Implementation of an Intelligent Parking Navigation System Based on Multi-Agent Collaboration and Multimodal RAG

发布时间:2026-03-31
作者: 张一 ,蔡聖权 :辽宁科技大学 辽宁鞍山;
摘要: 针对传统停车导航系统缺乏智能决策能力和环境适应性的问题,提出了一种基于多智能体协作与多模态检索增强生成(RAG)的智能停车导航系统。系统采用模块化多智能体架构,将停车导航任务分解为视觉感知、路径规划、导航执行和安全监控四个专业智能体,通过消息传递机制实现协同工作。引入多模态RAG技术,构建包含停车场布局模板库、历史案例库和动态环境知识库的综合知识体系,通过向量检索和相似度匹配实现知识增强决策。系统支持视觉图像和文本描述的多模态输入,能够快速适配不同布局的停车场环境。设计了基于PyGame的仿真平台,实现了完整的系统功能。系统验证表明,系统能够有效识别空车位、规划最优路径并完成导航任务,具有良好的实用性和扩展性。该系统为智能停车领域提供了新的技术思路,具有重要的理论价值和实际应用前景。
Abstract: Aiming at the problems of traditional parking navigation systems lacking intelligent decision-making capabilities and environmental adaptability, an intelligent parking navigation system based on multi-agent collaboration and multimodal retrieval-augmented generation (RAG) is proposed. The system adopts a modular multi-agent architecture, decomposing parking navigation tasks into four specialized agents: vision perception, path planning, navigation execution, and safety monitoring, achieving collaborative work through message passing mechanisms. Multimodal RAG technology is introduced to construct a comprehensive knowledge system including parking lot layout template library, historical case library, and dynamic environment knowledge base, achieving knowledge-enhanced decision-making through vector retrieval and similarity matching. The system supports multimodal input of visual images and text descriptions, enabling rapid adaptation to parking lots with different layouts. A simulation platform based on PyGame is designed to achieve complete system functions. System verification shows that the system can effectively identify empty parking spaces, plan optimal paths, and complete navigation tasks, demonstrating good practicality and extensibility. This system provides new technical ideas for the intelligent parking field and has important theoretical value and practical application prospects.
关键词: 多智能体系统;检索增强生成;智能停车;路径规划;多模态融合
Keywords: multi-agent system; retrieval-augmented generation; intelligent parking; path planning; multimodal fusion

引言

随着我国城市化进程的加快和居民出行需求的不断增长,汽车保有量持续攀升,城市停车难问题日益突出。在大型商场、医院和办公园区等人员密集区域,停车场规模不断扩大、布局日趋复杂,驾驶员寻找空余车位往往需要较长时间,不仅增加了出行成本,也容易引发停车场内部拥堵和环境污染,传统停车管理与导航方式已难以满足高效、便捷的出行需求,现有智能停车系统多采用单一模块或集中式设计,缺乏多功能模块之间的协同机制,难以应对车位状态频繁变化和动态障碍物等复杂场景。此外,系统对历史经验和典型场景的利用能力有限,在面对新停车场布局时,往往需要重新调整模型或参数,适配效率较低,制约了系统的实际应用效果。

多智能体系统(Multi-Agent System, MAS)通过将复杂任务分解为多个相互协作的智能体,能够有效提升系统在复杂环境下的决策效率和鲁棒性,在导航与交通控制等领域具有良好的应用前景。检索增强生成(Retrieval-Augmented Generation, RAG)技术通过引入外部知识库,为决策过程提供知识支持,能够弥补模型对新场景和少样本环境适应能力不足的问题。近年来,多模态RAG进一步拓展了对图像和文本等多源信息的联合处理能力,为复杂场景下的智能决策提供了新的思路,同时无人机技术的发展为停车场全局感知提供了有力支撑,其俯视视角能够有效减少视觉盲区,为空车位识别和安全监控提供更全面的数据基础。将多智能体协作机制、多模态RAG技术与无人机感知相结合,有望构建具备更强环境适应性和协同决策能力的智能停车导航系统。

基于此,本文提出一种基于多智能体协作与多模态RAG的智能停车导航系统,本文的主要贡献如下:

  1. 提出了一种基于多智能体协作的分层模块化智能停车导航系统架构,实现了功能模块的分布式设计与高效协同;
  2. 设计了多模态RAG知识增强机制,构建了包含多种知识库的综合知识体系,结合向量检索与多模态融合策略,进而提升系统的环境适应性与决策准确性;
  3. 实现了完整的系统原型与仿真平台,完成了空车位识别、路径规划、安全导航等核心功能集成。

1相关工作

1.1 多智能体系统

多智能体系统是由多个具有自主性、反应性、社会性的智能体组成的分布式系统,各智能体通过感知环境、做出决策并与其他智能体交互,协同完成复杂任务。与单一智能系统相比,多智能体系统具有模块化程度高、灵活性强、容错性好等优势,能够适应复杂、动态、分布式的应用场景。

智能体的核心特征包括自主性、交互性与协作性:自主性指智能体能够独立感知环境信息并做出决策,无需外部直接干预;交互性指智能体能够通过特定通信机制与其他智能体或环境进行信息交换;协作性指多个智能体通过协调配合,共同完成单一智能体难以完成的复杂任务。在智能停车导航场景中,多智能体系统可将停车导航任务分解为多个子任务,由不同专业智能体分别处理,通过协同协作实现整体功能优化。

智能体间的通信机制是多智能体系统协同工作的核心,常见的通信方式包括消息传递、黑板系统、发布-订阅模式等。其中,消息传递机制具有耦合度低、灵活性强、可扩展性好的特点,适合模块化多智能体架构的设计,能够实现各智能体间的异步通信与任务协调,确保系统的高效运行。

1.2 多模态RAG技术

检索增强生成(RAG)技术是一种融合检索与生成的智能决策技术,通过从外部知识库中检索相关信息,为生成模型提供知识支持,从而提升决策的准确性与合理性。与传统生成模型相比,RAG技术无需对模型进行大规模重新训练,即可快速更新知识,具有知识时效性强、决策可靠性高的优势。

多模态RAG技术是RAG技术的延伸与拓展,能够同时处理图像、文本等多种模态的输入信息,通过跨模态检索实现知识增强。其核心流程包括:多模态输入处理、向量编码、向量检索、知识融合与决策生成。其中,向量编码是关键环节,通过专门的嵌入模型将不同模态的信息编码为统一维度的向量表示,存储到向量数据库中;向量检索通过计算查询向量与知识库向量的相似度,快速获取相关知识条目;知识融合则将检索到的知识与当前环境信息相结合,为决策提供支撑。

向量数据库是多模态RAG技术的重要支撑,能够实现大规模向量数据的高效存储与快速检索,通过相似度计算算法(如余弦相似度、欧氏距离等),快速匹配与查询信息最相关的知识条目。多模态RAG技术的应用,能够使智能停车导航系统快速适配新的停车场布局,利用历史经验与布局模板优化决策过程,提升系统的环境适应性。

1.3 智能停车核心技术

智能停车导航的核心技术包括空车位识别、路径规划与安全监控三大类。空车位识别技术主要通过图像处理、深度学习等方法,识别停车场内车位的占用状态,获取空车位的位置信息,是停车导航的基础。常用的处理流程包括图像预处理、特征提取、车位检测与结果后处理,通过灰度化、降噪、边缘检测等预处理操作提升图像质量,借助卷积神经网络等模型提取图像特征,实现车位占用状态的精准判断。

路径规划技术是智能停车导航的核心,其目标是根据起点、终点(空车位)位置与停车场布局,规划出路径最短、效率最高、避障效果最好的最优路径。常用的路径规划算法包括A*算法、Dijkstra算法等,其中A*算法结合了启发式搜索策略,兼顾了搜索效率与路径最优性,广泛应用于智能导航场景,能够综合考虑路径长度、转弯次数、避障等因素,满足停车导航的实际需求。

安全监控技术是停车导航的保障,通过实时监测导航过程中的障碍物、碰撞风险等安全隐患,为导航执行提供安全建议,确保导航过程的安全性。常用的技术包括目标检测、目标跟踪等,通过识别前方车辆、行人等障碍物,计算障碍物与导航主体的距离和相对速度,评估碰撞风险等级,为导航策略调整提供依据。

2 方法

2.1 系统整体架构

本文提出的基于多智能体协作与多模态RAG的智能停车导航系统,采用分层模块化架构,结合多智能体协作与多模态RAG知识增强机制,实现空车位识别、路径规划、导航执行与安全监控的全流程智能化。系统总体架构如图1所示,分为感知层、决策层、执行层和知识层四个层次,各层次分工明确、协同配合,构成完整的智能停车导航体系。

cbe8c3ca-f5bf-4802-8ebb-e6d53b938d22
图1 系统总体架构图

感知层作为系统的“感知器官”,负责环境信息的采集与处理,主要由视觉感知智能体和安全监控智能体组成,接收外部多模态输入(图像、文本等),完成空车位识别、障碍物检测等环境感知任务,为后续决策提供基础数据支持。

决策层作为系统的“决策核心”,负责任务协调与路径规划,主要由路径规划智能体组成,根据感知层提供的环境信息(空车位位置、障碍物信息等),结合知识层的知识支持,规划从入口到目标空车位的最优路径,协调各智能体的工作流程,确保任务有序推进。

执行层作为系统的“执行器官”,负责导航任务的具体执行,主要由导航执行智能体组成,根据决策层规划的最优路径,生成控制指令,执行导航引导任务,确保车辆能够准确、安全地到达目标空车位。

知识层作为系统的“知识支撑”,负责提供知识增强服务,主要由多模态RAG系统组成,构建综合知识库,通过向量检索为各智能体提供知识支持,提升系统的环境适应性与决策准确性,是系统知识增强决策的核心。

2.2 多智能体系统设计

系统采用多智能体架构,将停车导航的复杂任务分解为四个专业智能体,各智能体功能独立、接口清晰,通过消息传递机制实现协同工作,构成完整的多智能体协作体系。多智能体协作框架如图2所示,明确了各智能体的功能定位与交互关系。

749b056a-6898-47c9-8c28-41ecfb96af43
图2 多智能体协作框架图

视觉感知智能体作为系统的“眼睛”,核心功能是空车位识别,接收无人机俯视图等视觉输入,通过图像处理、深度学习模型与RAG知识增强机制,识别空车位的位置与占用状态,输出空车位列表。其处理流程包括图像预处理、特征提取、车位检测与后处理,同时通过RAG系统检索相似停车场布局模板,优化检测结果,提升检测准确性。

路径规划智能体作为系统的“大脑”,核心功能是最优路径规划,根据视觉感知智能体提供的空车位位置、停车场布局信息,结合RAG系统检索的历史案例与布局模板,采用A*算法规划从入口到目标空车位的最优路径,综合考虑路径长度、转弯次数、避障等因素,输出路径点序列。

导航执行智能体作为系统的“手脚”,核心功能是导航任务执行,根据路径规划智能体提供的路径点序列,生成控制指令,引导车辆(或无人机导航载体)沿规划路径移动,同时接收安全监控智能体的安全状态信息,动态调整导航策略,确保导航精度与安全性。

安全监控智能体作为系统的“安全卫士”,核心功能是实时安全监测,接收无人机前视图等视觉输入,通过目标检测、目标跟踪等技术,检测前方障碍物,评估碰撞风险等级,生成安全建议,传递给导航执行智能体,为导航策略调整提供依据,保障导航过程的安全。

2.3 多模态RAG系统设计

多模态RAG系统是系统知识增强的核心,负责构建综合知识库,通过多模态向量检索为各智能体提供知识支持,提升系统的环境适应性与决策准确性。多模态RAG系统结构如图3所示,主要由知识库构建、向量检索与多模态融合三大模块组成。

基于多智能体协作与多模态 RAG 的智能停车导航系统 (2)
图3 多模态RAG系统结构图

知识库构建模块负责构建系统的综合知识体系,包含三个子库:停车场布局模板库、历史案例库和动态环境知识库。停车场布局模板库存储多种典型停车场布局(矩形、L型、不规则等)的模板信息,包括布局描述、车位排列规律、关键路径点等;历史案例库存储系统运行过程中的成功与失败案例,包括场景描述、路径规划方案、执行结果等,为决策提供历史经验支持;动态环境知识库实时存储当前停车场的动态信息,包括车位占用状态、车辆位置、障碍物信息等,为实时决策提供最新环境知识。

向量检索模块负责实现知识的快速检索与匹配,采用向量数据库存储知识库信息,通过嵌入模型将文本、图像等多模态知识编码为统一维度的向量表示。当各智能体需要知识支持时,将查询信息(图像或文本)编码为查询向量,通过向量相似度计算,检索出与查询信息最相关的知识条目,按相似度排序后提供给智能体,实现知识增强决策。

多模态融合模块负责处理多模态输入信息,实现图像与文本信息的互补融合。当输入为图像时,提取图像特征并转换为文本描述,再进行向量编码与检索;当输入为文本时,直接进行向量编码与检索;当同时输入图像与文本时,将两种模态的特征拼接融合,生成综合查询向量,提升检索准确性,确保系统能够适应不同类型的输入需求。

3 系统实现

3.1 系统开发环境与仿真平台

为实现系统的完整功能并验证其有效性,本文基于通用开发框架构建系统原型,设计仿真环境模拟真实停车场场景,完成各模块的开发与集成。系统开发采用面向对象设计思想,各智能体继承自统一的智能体基类,定义标准化接口,便于模块扩展与维护。

仿真环境采用通用仿真框架构建2D模拟场景,模拟真实停车场的布局特征、车辆移动与无人机飞行过程。仿真环境支持可配置设计,能够根据参数设置生成不同大小、不同形状(矩形、L型、不规则)的停车场布局,定义标准车位尺寸与车道宽度,自动生成车位、车道、出入口等核心元素;同时模拟车辆与无人机的运动状态,实现车辆沿路径移动、无人机航拍成像等功能,为各智能体提供真实的输入数据(俯视图、前视图等)。

系统的核心开发语言采用Python,依托开源视觉处理、深度学习与向量检索库,实现各模块的功能开发。其中,视觉感知模块采用开源图像处理库实现图像预处理、边缘检测等操作,采用深度学习框架实现车位检测与障碍物检测模型;路径规划模块采用图论库实现导航图构建,基于A*算法实现路径搜索与优化;RAG系统采用向量检索库实现向量存储与检索,采用嵌入模型实现多模态信息编码;各模块通过消息队列实现异步通信,确保智能体间的协同工作。

3.2 核心模块实现

视觉感知智能体的实现核心是空车位识别,其流程包括图像预处理、特征提取、车位检测与RAG增强。图像预处理阶段,对输入的无人机俯视图进行灰度化、高斯模糊、边缘检测等操作,去除图像噪声,增强车位标记线与车辆的特征对比度;特征提取阶段,采用卷积神经网络提取图像的深层特征,识别车位标记线、车辆轮廓等关键信息;车位检测阶段,通过分析车位区域的特征,判断车位占用状态,输出初步检测结果;RAG增强阶段,将当前停车场布局图像编码为向量,检索相似布局模板,利用模板的车位排列规律优化检测结果,过滤误检、漏检情况,提升检测准确性。

路径规划智能体的实现核心是最优路径规划,采用A*算法完成路径搜索与优化。首先,根据停车场布局与空车位位置,构建导航图,将出入口、车位、关键路径点作为节点,将可通行车道作为边,为每条边设置权重(考虑路径长度、转弯次数等因素);然后,采用A*算法进行路径搜索,以欧氏距离作为启发式函数,快速搜索从入口到目标空车位的最优路径;最后,对搜索得到的路径进行平滑处理,删除冗余路径点,减少不必要的转弯,生成简洁、可行的路径点序列。同时,通过RAG系统检索相似历史案例,参考案例中的路径规划策略,优化启发式函数参数,提升规划效率与路径合理性。

导航执行智能体的实现核心是路径跟踪与速度控制,根据路径规划智能体输出的路径点序列,生成控制指令,引导导航载体(无人机+车辆)沿路径移动。路径跟踪算法通过计算当前位置与目标路径点的方向角,生成转向指令,确保载体沿路径方向移动;速度控制算法根据当前位置与目标路径点的距离、安全监控智能体提供的碰撞风险等级,动态调整移动速度,接近目标车位时减速,确保停车精度,遇到障碍物时及时减速或停车。同时,实时接收安全监控智能体的消息,根据碰撞风险调整导航策略,确保导航安全。

多模态RAG系统的实现核心是知识库构建与向量检索,知识库采用结构化存储方式,将停车场布局模板、历史案例等信息整理为标准化格式,关联对应的图像与文本描述;向量编码阶段,采用多模态嵌入模型,将文本信息与图像特征编码为统一维度的向量,存储到向量数据库中;检索阶段,根据查询信息的类型(图像或文本),生成查询向量,通过余弦相似度计算,检索出相似度最高的Top-K知识条目,传递给对应的智能体,实现知识增强决策。多模态融合采用特征拼接方式,将图像特征与文本特征融合后生成综合向量,提升检索准确性。

4结语

针对传统停车导航系统缺乏智能决策能力、环境适应性弱等问题,本文提出并实现了一种基于多智能体协作与多模态RAG的智能停车导航系统,通过系统设计、模块开发与仿真验证,得出以下结论:

提出的模块化多智能体架构,将停车导航任务分解为视觉感知、路径规划、导航执行与安全监控四个专业智能体,通过消息传递机制实现协同工作,实现了任务的分布式处理与模块化扩展,提升了系统的灵活性与可维护性。

设计的多模态RAG知识增强机制,构建了包含停车场布局模板库、历史案例库与动态环境知识库的综合知识体系,通过多模态向量检索为各智能体提供知识支持,显著提升了系统的环境适应性与决策准确性,使系统能够快速适配不同布局的停车场场景。

实现的系统原型通过仿真验证,在空车位识别、路径规划、导航执行等核心功能上表现良好,平均空车位识别准确率达到94.5%,平均导航成功率达到95.2%,无碰撞发生,能够稳定、高效地完成停车导航任务,具有良好的实用性与扩展性。

本文提出的系统架构与技术方案,为智能停车导航领域提供了新的技术思路,解决了传统系统环境适应性差、决策智能化不足的问题,具有重要的理论价值与实际应用前景。

参考文献:

  1. [1] 李广宇,李益乐,张文亮,等.智能停车导航系统构建的必要性及可行性分析[J].软件,2018,39(07):17-23.
  2. [2] 赵静,汤文玉,霍钰,等.大模型检索增强生成(RAG)技术浅析[J].中国信息化,2024(10):71-72+70.
  3. [3] 魏雨浓.基于图像相似度的停车场车位识别方法研究[D].吉林大学,2018.
  4. [4] 李月,王善勤,肖宏飞. 基于物联网的智能停车系统设计[J].滁州职业技术学院学报,2024,23(04):58-62.
  5. [5] 余滟. 新型智能停车系统的调试及故障处理[J].四川建筑,2024,44(05):260-262.
  6. [6] 孙伟,董军刚. 智能停车系统在城市现代化综合交通枢纽建设中的实践研究[J].专用汽车,2024(05):82-85.
联系我们
人工客服,稿件咨询
投稿
扫码添加微信
客服
置顶