随着大型语言模型的发展,大型语言模型在常识、推理和规划能力方面展现出了卓越的性能,为此人们正在尝试将其应用到各个应用场景。今天为大家分享的这篇文章,作者尝试将大型语言模型(LLMs)应用到城市交通控制管理,顺利将其与交通流量专业知识相融合,使ChatGPT能够查看、分析、处理交通数据,并为城市交通系统管理提供富有洞察力的决策支持。
Paper:https://arxiv.org/pdf/2309.06719v1.pdf
Code:https://github.com/lijlansg/TrafficGPT
人工智能(AI)和自然语言处理(NLP)领域的最新研究进展开创了一个新时代。以ChatGPT、GPT-4、LIMA为代表的大型语言模型(LLMs)表现出卓越的常识、推理和规划能力,它们结合输入数据能够给出富有洞察力的结论。这些能力为城市交通控制管理带来了巨大的可能。
然而,尽管大型语言模型(LLMs)具有令人印象深刻的推理、规划能力,但考虑到大模型的训练数据分布,对于城市交通控制管理,限制了它们熟练处理数值数据和与模拟交互的能力,从本质上缺乏对交通流量控制的深入理解。
在交通管理领域,也有各种各样的交通基础模型(Traffic Foundation Models,TFM)。此类模型大多经过精心设计,旨在解决交通相关的具体问题。虽然这些TFM在指定任务中表现出色,但它们通常在单轮输入和输出的范围内运行。此外,由于TFM 数量庞大且专业化,为复杂任务识别和串接TFM对人类操作员来说是一项艰巨的挑战。
这提供了一个独特且有前景的机会,可以「弥合大型语言模型(LLM)的功能与TFM中嵌入的专业知识之间的差距」。通过无缝整合这些独特的优势,可以为创新解决方案铺平道路,从而显着增强对交通管理领域的理解和问题解决。
基于以上背景,作者提出了TrafficGPT框架,它将ChatGPT和流量基础模型(TFM)相融合,使LLMs理解自己的行为,进而让LLMs完成一些复杂的操作并为人类提供决策建议。这种集成通过利用大型语言模型的能力来解决交通数据分析和决策带来的复杂挑战,从而彻底改变交通管理。
TrafficGPT利用多模态数据作为数据源,从而为各种交通相关任务提供全面支持。TrafficGPT的框架如下图所示。
如上图所示,TrafficGPT利用视频数据、探测器数据、模拟系统数据等各种交通数据。其中,交通基础模型(TFM)不与这些数据源直接交互,而是通过中间数据库管理层实现数据访问。在框架的最外层,大型语言模型 (LLM) 识别用户需求并通过TFM协调任务执行。
下图展示了详细阐述 TrafficGPT 如何利用大语言模型来解构和执行复杂的流量相关任务的详细机制。
如上图TrafficGPT的应用共分为8个步骤,具体如下:「Step1」:自然语言输入,该过程从用户通过 TrafficGPT 前端以自然语言输入任务要求开始。该输入文本用作提示并传递到下一步进行提示管理。
「Step2」:Prompt管理,它主要用来定义LLM agent的运行框架。它涉及工作机制、指定关键考虑因素以及传达有用工具集的信息。此外,此步骤可以合并历史对话上下文,以促进多轮交互。该集成提示的组成部分包括用户任务请求、系统前缀、可用工具、推理历史记录和对话历史记录。通过将这些元素合并成一个高效提示,Agent就配备了必要的上下文和指令,以促进有效的任务解构和执行。
「Step3」:自然语言理解和任务规划,利用LLM的功能,Agent可以理解自然语言的提示。由于LLM固有的认知能力,代理通过合并任务请求、可用工具集和推理历史存储库来促进演绎推理。
「Step4」:流量基础模型执行:Agent在可用工具中调用选定的TFM,并严格按照工具定义中描述的先决条件制定参数。利用这些参数,TFM 执行不同的任务,包括数据库检索和分析、数据可视化和系统优化等功能,最终生成所需的输出结果。
「Step5」:结果输出和中间答案,工具执行后,Agent通过API接口检索TFM的输出。Agent以自然语言的形式将工具的输出集成到中间答案中,供LLMs做下一步的规划。在需要多模态输出作为补充信息的场景中,表格等结构化内容将以Markdown格式生成,而可视化图像、数据文件等类似组件将以文件路径的形式提供。
「Step6」:任务评估和继续:代理在用户任务请求和正在进行的中间答案之间进行比较分析,以衡量任务完成的状态。如果任务仍未解决,则过程将退回到step2到step5,确保执行过程的迭代继续。
「Step7」:答案生成:在确定step6任务完成后,Agent利用LLM整合工具生成的输出内容以制定结论性响应。随后,这个精心设计的响应通过前端界面传输给用户。
「Step8」:对话记忆存储:在此步骤中,通过存储用户输入和LLM的输出来保留连续对话。这些记录会被汇总到对话历史中,并作为后续交互中提示管理输入的一部分,为大语言模型提供记忆能力的对话上下文。
1、TrafficGPT基于自然语言理解「执行交通相关命令的基本能力」。如下图所示:
在左侧的对话中,数据处理机器人可以访问数据库并提取特定时间段内的流量数据,以及执行复杂的数据可视化命令。在右侧的对话中,模拟控制机器人展示了执行模拟数据检索、建模和控制的能力。
2、TrafficGPT能够「有效处理不明确的指令」,并在必要时可以参考人工干预,如下图所示:
在左侧的对话中,TrafficGPT展示了理解和执行不明确任务的能力,并且可以在对话期间纠正结果。在右侧的对话中,TrafficGPT展示了其在需要时向用户请求其他信息的能力
3、「多轮对话能力」,下图为人类与TrafficGPT 之间进行多轮对话截图。
其中,中、右栏显示了用户在整个6轮对话中提出的问题以及TrafficGPT提供的答案。左栏具体展示了TrafficGPT在第一轮对话中的详细推理和行为过程。