自动驾驶VLA的过去、现在和未来

小陡坡香菜

发布于 2025-12-29 11:58:24

260

自动驾驶系统的发展历程可以追溯到上世纪80年代末期，从ALVINN的神经网络原型到如今已开始商业化运行RoboTaxi车队，这一领域已经发生了深刻的技术变革。然而，一个根本性的架构问题始终存在：如何在复杂、动态且充满不确定性的真实世界中，构建一个既安全可靠又足够智能的决策系统？

传统的自动驾驶系统采用模块化的"感知-决策-控制"（Perception-Decision-Control）模块化架构。在这种设计中，感知层负责理解环境，地图构建模块解析道路拓扑结构，目标检测模块识别周围的车辆、行人和障碍物，语义分割模块区分可行驶区域与障碍区域。决策层负责规划行为，运动预测模块推断其他交通参与者的未来轨迹，行为规划模块决定何时变道、何时让行，轨迹规划模块生成一条安全且舒适的行驶路径；控制层负责执行动作，轨迹跟踪控制器（如MPC或Pure Pursuit）将规划的路径转化为转向角指令，纵向控制器管理油门和刹车以维持期望的速度曲线。这种分而治之的策略在结构化、规则明确的环境中表现很好，当道路标线清晰、交通信号正常工作、其他车辆行为可预测时，模块化系统能够稳定地完成驾驶任务。

但真实世界的驾驶远非如此简单。当一辆载满货物的三轮车突然从小巷窜出，当暴雨冲刷掉路面标线，当施工现场的工人用手势指挥交通，这些"长尾场景"(Cornor Case)就显现出模块化架构的局限性了。模块间依赖人工设计的接口和预定义的数据格式，这些刚性约束难以适应场景的无限多样性。其次，顺序级联的结构导致误差累积：感知模块的一个小错误会被下游的预测和规划模块逐级放大，最终可能导致危险的决策。更重要的是，这种架构缺乏对场景的整体语义理解，比如系统知道前方有一个行人，却不理解这个行人下一步要干嘛，比如他正在追赶一只跑向马路的小狗，因此可能做出的行为是不可预测的。

正是在这样的背景下，端到端自动驾驶成为研究热点，加之LLMs(大预言模型)，LMMs(大多模态模型)的快速发展和能力涌现，VLA（Vision-Language-Action）自然而然的成为于大模型结合的技术范式代表。VLA模型的出发点是基于这样的一个考虑：人类驾驶员之所以能够应对各种复杂场景，不仅因为他们具备视觉感知能力，更因为他们拥有丰富的世界知识及深度推理能力，以及通过语言进行抽象思考的能力。一个熟练的驾驶员看到前方的施工现场，会自然地推理："工人正在指挥交通，我应该减速并按照他的指示行驶。"这种将感知、语言推理和行动决策无缝结合的能力，正是VLA模型正在赋予自动驾驶系统的。

本文基于WorldBench团队发布的综述论文"Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future"整理撰写。

VLA模型的理论框架

形式化定义与核心组件

从数学角度来看，VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。给定时刻的观测，模型输出相应的驾驶动作：

这个看似简洁的公式背后蕴含着VLA的完整设计理念。输入不再仅仅是原始的传感器数据，而是聚合了视觉、语言、状态等多种异构信号的丰富表示。函数代表视觉-语言模型（VLM）主干网络，它承担着理解场景、进行推理的核心职责。而动作预测头则负责将抽象的语义理解转化为具体的、可执行的驾驶指令。

这种三层结构的设计反映了VLA模型模拟人类驾驶员认知过程的核心思想：我们首先通过感官获取环境信息，然后在大脑中进行理解和推理，最后将决策转化为动作来操控车辆。

多模态输入的构成与融合

VLA系统的输入层需要处理来自不同传感器和信息源的异构数据，这些数据在采样率、数据格式、语义层次上都存在比较大的差异，在了解VLA之前，首先需要理解这些输入的特性及其融合方式。

视觉传感器输入构成了VLA系统的感知基础。现代自动驾驶车辆通常配备6到8个摄像头，形成360度的环视覆盖。每个摄像头以每秒10到30帧的频率输出高分辨率RGB图像，整体输入可以表示为，其中是摄像头数量，和分别是图像的高度和宽度。这些图像提供了丰富的语义信息，道路标线、交通标志、车辆外观、行人姿态等都可以从中提取。然而，单纯的图像输入缺乏精确的深度信息，这对判断距离和进行三维空间推理时会带来挑战。

激光雷达（LiDAR）点云弥补了视觉传感器在几何信息上的不足。通过发射激光脉冲并测量反射时间，LiDAR能够获取环境的精确三维结构。点云数据通常表示为，其中是点的数量（通常为数万到数十万），包含每个点的三维坐标（x, y, z）以及可能的附加属性如反射强度和速度。与图像相比，点云数据天然具有三维几何精度，但在语义丰富度上有所欠缺——从点云中识别一辆车是红色还是蓝色是困难的。

毫米波雷达（Radar)点云提供了另一种距离感知方式。传统毫米波雷达输出稀疏的检测点，角度分辨率较低，难以精确描绘物体轮廓；但近年来兴起的4D成像雷达能够输出更密集的点云数据，逐渐缩小与LiDAR的差距。毫米波雷达的独特优势在于：其一，能够通过多普勒效应直接测量目标的径向速度，这对于运动物体检测尤为重要；其二，毫米波不受雨、雾、扬尘等恶劣天气影响，在LiDAR和摄像头性能下降的场景中仍能稳定工作；其三，成本显著低于LiDAR。这些特性使毫米波雷达成为多传感器融合方案中的重要补充。

为了充分利用多传感器的互补优势，VLA系统通常在中间表示层进行融合。BEV（Bird's-Eye View）特征是目前最流行的融合表示之一。BEV将多视角相机图像和/或LiDAR点云投影到统一的自上而下视图中，生成形如的特征图。这种表示的优势在于它与道路平面自然对齐，便于进行路径规划和障碍物避让推理。更进一步的三维表示是占据栅格（Occupancy Grids），它将空间离散化为体素网格，预测每个位置的占据状态和语义类别，表示为。占据栅格能够更完整地表达三维场景结构，对于处理非规则形状的障碍物（如悬挂的树枝、不规则的建筑物）尤为重要。

语言输入是VLA模型区别于传统VA模型的关键特征。语言以文本token序列或嵌入向量的形式进入系统，表示为或。语言输入可以是高层任务指令（如"在下一个路口左转"），也可以是场景描述、交通规则提示，甚至是与乘客的自然对话。语言的引入不仅使系统能够接收人类的意图表达，更重要的是，它为模型提供了一个进行抽象推理的符号空间。当系统能够用语言"思考"场景时，它就获得了某种程度的可解释性和泛化能力。

最后，车辆状态信息提供了自车的本体感知数据，包括当前速度、加速度、转向角、横摆角速度、转向灯状态等。这些信息对于理解车辆的动力学状态和规划未来轨迹至关重要。例如，在高速行驶时，系统需要考虑更长的制动距离；当转向灯已打开时，系统应该准备执行相应的变道或转向动作。

VLA模型主干网络的设计哲学

VLM主干网络是VLA系统的"大脑"，它承担着将异构输入融合为统一表示、理解场景语义、进行因果推理等核心任务。现代VLM的设计受益于大语言模型（LLM）和多模态学习的双重进展，其架构通常包含三个关键组件：视觉编码器、模态对齐模块和语言模型解码器。

视觉编码器负责将原始图像转换为紧凑的特征表示。Vision Transformer（ViT）已成为当前的主流选择。ViT将图像分割为固定大小的patch，将每个patch线性投影为token，然后通过多层自注意力机制学习patch之间的关系。相比传统的卷积神经网络，ViT在捕捉全局依赖关系方面更具优势，这对于理解复杂的交通场景，如远处车辆的意图对近处行驶决策的影响尤为重要。一些系统还采用了层次化的视觉编码器，如Swin Transformer，以更好地处理多尺度视觉特征。

模态对齐是VLM设计中最具挑战性的环节之一。视觉特征和语言嵌入来自完全不同的表示空间，如何将它们统一到一个能够进行联合推理的空间中，是VLM研究的核心问题。目前主要有两种策略：一是使用桥接网络，如Q-Former[1]或Resampler，通过一组可学习的查询向量从视觉特征中提取与语言相关的信息；二是采用统一的多模态token建模机制，将视觉patch和语言token在同一个序列中处理，让模型通过大规模预训练学习跨模态的对齐关系。

语言模型解码器通常是一个预训练的大语言模型，如LLaMA、Qwen或GPT系列。解码器以融合后的多模态特征为条件，通过自回归的方式生成输出，这个输出可以是自然语言形式的推理过程，也可以是编码为token的动作序列。语言模型的引入为VLA系统带来了三个关键优势：首先是世界知识，大规模预训练使模型积累了关于交通规则、物理常识、社会惯例等丰富的先验知识；其次是推理能力，语言模型天然支持思维链（Chain-of-Thought）式的逐步推理；最后是泛化能力，预训练在海量文本上学到的通用表示能够帮助模型更好地处理训练数据中未见过的场景。

根据VLM在系统中扮演的角色，VLA架构可以分为两种范式。在单系统设计中，VLM直接输出可执行的动作，整个从感知到行动的过程在一个模型中完成。这种设计的优势在于端到端的优化，没有信息在模块接口处丢失，梯度可以从动作误差一直回传到视觉编码器。在双系统设计中，VLM作为高层推理模块，输出中间形式的指导信息（如文本推理或语义意图），再由专门的规划器将其转化为具体的轨迹或控制指令。这种设计借鉴了认知科学中理论，将"慢思考"（审慎推理）和"快反应"（即时控制）分离，在保持可解释性的同时确保系统的实时响应能力。

动作预测头的多样化设计

动作预测头是VLA系统的"执行器接口"，它将VLM输出的抽象语义表示转化为可以直接发送给车辆控制系统的信号。动作头的设计直接影响着系统的输出精度、可解释性和与下游模块的兼容性。根据输出形式和生成机制的不同，现有方法可以分为四种主要类型。

语言头（Language Head）是最直接利用VLM能力的设计。它复用语言模型的文本生成头，将动作表达为自然语言形式的指令或离散化的token序列。DriveMLM和DriveGPT4等早期工作采用了这种设计，模型输出如"减速并准备停车"或"向左变道"这样的高层指令，然后由下游模块将其转化为具体的控制信号。这种设计的优势在于天然的可解释性——人类可以直接理解模型的决策意图。但其挑战也很明显：离散的语言符号难以精确表达连续的轨迹或控制量，从"向左变道"到具体的转向角度之间存在一个需要填补的语义鸿沟。

回归头（Regression Head）采用更直接的数值预测方式。它在VLM的输出层之后附加一个解码器结构（通常是GRU或Transformer解码器），再接一个多层感知机（MLP），直接输出连续的数值—转向角、油门/刹车值或轨迹航点坐标。LMDrive和DriveGPT4-V2[2]采用了这种设计。回归头避免了离散化带来的精度损失，其输出可以直接用于车辆控制。

轨迹选择头（Trajectory Selection Head）通过引入候选轨迹集合来处理多模态决策问题。系统首先生成或采样一组多样化的候选轨迹，然后利用VLM的表示来评估每个候选的质量，选择最优的一个作为输出。WoTE和SeerDrive采用了这种策略。轨迹选择的优势在于可以预先确保候选轨迹满足运动学约束（如最大转向速率、加速度限制），从而保证输出的物理可行性。其挑战在于候选集的质量，如果候选集未能覆盖真正最优的轨迹，选择再精确也无法得到好的结果。

轨迹生成头（Trajectory Generation Head）采用生成式建模的方法来合成动作。扩散模型（Diffusion Model）是目前最流行的选择：模型从随机噪声出发，在VLM特征的条件引导下，通过迭代去噪过程逐步生成轨迹样本。ORION和DiffVLA是这一方向的代表工作。生成式方法的核心优势在于能够建模动作分布的多模态性——它不是输出一个确定的轨迹，而是学习一个轨迹的分布，从中可以采样出多个合理的选项。这与人类驾驶的本质更为接近：面对同样的场景，不同的驾驶员可能做出略有不同但都合理的决策。

动作空间的表示选择

动作空间的设计是VLA系统中一个基础且重要的输出决策，它定义了模型能够生成的输出类型，直接影响着系统的控制精度和与下游模块的接口方式。

离散轨迹表示将车辆的未来路径表达为有限个空间航点的序列：。这里是预测时域内的航点数量，每个是二维平面上的目标位置。这种表示方式直观且易于处理，后续的轨迹跟踪控制器可以使用纯追踪（Pure Pursuit）或模型预测控制（MPC）等方法将航点序列转化为连续的控制指令。离散表示的局限在于它假设了固定的时间分辨率，对于需要精细控制的紧急情况可能不够灵活。

连续轨迹表示将运动参数化为时间的连续函数：。速度曲线描述了车辆的纵向运动，曲率曲线描述了横向运动。这种表示更紧凑，只需要少数几个参数（如多项式系数）就能描述平滑的轨迹曲线，同时天然保证了轨迹的连续性和可微性。然而，从神经网络输出到连续函数参数的映射需要精心设计，且某些复杂的机动（如急转弯后的直行）可能难以用简单的参数形式表达。

直接控制表示跳过轨迹规划环节，直接输出底层控制信号：，分别对应转向角、油门和刹车。这种端到端的设计最大限度地减少了信息损失，从原始感知到执行器控制的整条链路都在一个模型中优化。早期的端到端驾驶工作如NVIDIA的PilotNet就采用了这种方式。直接控制的挑战在于安全保障：输出的控制量可能超出车辆的物理极限，或者导致不舒适甚至危险的急加速/急转向。因此，实际部署时通常需要额外的安全层来约束控制输出。

语言表示是VLA模型特有的动作形式。它将动作编码为来自词汇表的token序列：。语言表示可以涵盖从高层指令（"在交叉路口左转"）到数值编码（将坐标离散化为token）的多种形式。这种统一的表示方式使得动作生成可以与语言推理无缝衔接，模型可以在同一个生成过程中既输出推理步骤又输出动作指令。AutoVLA的工作表明，经过精心设计的动作token码本可以在保持VLM推理能力的同时实现精确的轨迹预测。

从视觉-动作到视觉-语言-动作的演进

视觉-动作(Vision-Action)模型的发展脉络

要理解VLA模型的价值，我们还需要回顾VA（Vision-Action）模型，VA模型的核心思想是直接将视觉观测映射到驾驶动作，绕过传统模块化架构中的中间表示和手工设计的接口。这一思路可以追溯到1989年CMU的ALVINN[3]项目，一个仅有几百个神经元的浅层网络，却能够在简单道路上实现自主导航。

深度学习时代的到来为VA模型注入了新的活力。2016年，NVIDIA展示了PilotNet[4]系统，一个端到端训练的卷积神经网络能够仅从前视摄像头图像预测转向角。这项工作引发了学术界和工业界对端到端驾驶的广泛关注。随后，Waymo的ChauffeurNet证明了在大规模数据上进行行为克隆的可行性,通过模仿专家驾驶员的行为，模型能够学会处理各种城市驾驶场景。

VA模型的架构设计经历了从简单到复杂的演进。早期的纯动作模型采用直截了当的设计：将传感器输入送入神经网络，直接输出控制量或轨迹。这类模型的训练范式主要有两种：模仿学习通过最小化与专家动作的差异来训练策略，简单高效但对分布偏移敏感，当车辆偏离了专家轨迹，模型就进入了训练数据未覆盖的区域，可能做出错误决策；强化学习通过与环境（通常是模拟器）的交互来优化策略，能够探索更广泛的状态空间，但面临样本效率低、奖励函数设计困难等挑战。

更先进的VA模型引入了中间表示层来提升性能。基于BEV的方法如ST-P3、UniAD、VAD从多视角图像构建统一的鸟瞰图特征，在这个与道路平面对齐的空间中进行规划。UniAD的工作尤其具有里程碑意义：它将目标检测、轨迹预测、占据预测、规划等任务在一个网络中联合训练，展示了端到端学习相比模块化设计的优势。基于稀疏查询的方法如SparseDrive、DriveTransformer则避免了构建密集BEV网格的计算开销，使用隐式查询来聚合图像特征，在效率和精度之间取得了更好的平衡。

世界模型代表了VA模型的另一个重要分支。与直接从观测预测动作不同，世界模型可以学习环境的动态规律，给定当前状态和自车动作，预测未来场景的演化。例如Think2Drive 采用基于模型的强化学习（MBRL）方法训练智能体，并配以一个紧凑的潜在世界模型来学习环境的状态转移。这种"先想象、再决策"的范式更接近人类的认知过程。基于图像的世界模型如GenAD、Vista使用扩散模型生成未来的视觉帧；基于占据的世界模型如OccWorld预测三维空间的未来状态；基于潜在表示的世界模型如LAW则在压缩的特征空间中进行预测，避免了像素级生成的高计算成本。

VA模型的根本性局限

尽管VA模型取得了显著进展，但它们在结构上存在难以克服的局限，特别是在难以在复杂、模糊或长尾场景中就更加挑战，制约了VA模型在高级别辅助驾驶场景的应用落地。

黑箱决策是VA模型最受诟病的问题。当系统做出一个决策，比如在十字路口选择等待而不是通过，我们无法知道这个决策是基于对对向车辆速度的判断，还是因为模型注意到了某个行人的异常动作，还有可能是训练数据中对某些场景的过拟合。这种不透明性在安全关键的自动驾驶应用中是很难接受的：当事故发生时，需要能够分析系统为何做出了错误决策；当系统表现异常时，工程师需要能够诊断问题的根源。更重要的是，没有可解释性就难以建立用户对系统的信任。

泛化能力的脆弱性是另一个核心挑战。VA模型本质上是在学习训练数据的统计规律，它们的决策边界由训练分布塑造。当遇到训练数据中未充分覆盖的场景，例如罕见的天气条件、异常的道路布局、非典型的交通参与者行为，都会导致模型的表现急剧下降。这个问题一般也被称为"长尾分布"挑战：真实世界的驾驶场景呈现出极度不均衡的分布，绝大多数时间是平淡无奇的正常驾驶，而真正考验系统能力的边缘案例却极少出现在训练数据中。传统的数据增强和领域随机化技术只能部分缓解这个问题，因为我们无法预见所有可能的边缘案例。

推理能力的缺失是VA模型的结构性短板。这些模型直接将像素映射到动作，中间没有显式的推理过程。它们可能学会了"当前方有红灯时减速"这样的简单关联，但难以进行更复杂的逻辑推理，比如"这辆车开启了双闪灯并且速度在下降，它可能是要停车，我应该准备超车或者跟随减速"。这种推理需要对场景进行符号化的理解，识别事件关系，并基于世界知识进行显示推理和上下文分析，而这些正是语言模型的强项。

人机交互能力的欠缺使VA模型难以融入以人为中心的出行场景。人类驾驶员可以接受乘客的指令（"在那家咖啡店门口停一下"），或高层目标("后排乘客有点晕车")。VA模型缺乏处理这类自然语言指令的能力，它们被锁定在纯粹的视觉-动作回路中，无法参与更丰富的人机协作。

语言如何弥补这些鸿沟

VLA模型通过引入语言维度，扩展了VA范式，通过模型具备的推理能力和广泛的世界知识，着力于解决VA局限性问题。而语言的引入不是简单地增加一个输入模态，而是从根本上改变了模型的认知架构。

语言赋予系统可解释性。当VLA模型做出决策时，它可以同时生成自然语言形式的解释："前方车辆正在减速，可能是因为注意到了右侧行人有过马路的意图，我选择保持距离并准备制动。"这种解释使人类能够理解系统的推理过程，判断其是否合理，并在必要时进行干预。虽然当前VLA模型生成的解释仍然是一种"后验叙述"，它是模型认为最合理的解释，但不一定忠实反映其内部的计算过程。但这种解释对于调试、验证和建立信任仍然具有重要价值。

语言连接了模型与广阔的世界知识。大语言模型在海量文本上的预训练使其积累了关于世界的丰富知识，包括交通法规、物理常识、社会惯例、地理知识等。这些知识以某种分布式的形式编码在模型的参数中，当VLA模型处理驾驶场景时，可以调用这些先验知识来辅助决策。例如，模型可能"知道"学校附近在上下学时段会有大量儿童活动，因此即使当前场景看起来正常，也应该保持更高的警惕。这种知识迁移使VLA模型在面对未见过的场景时拥有更好的泛化能力，它不是纯粹依赖统计关联，而是可以进行基于知识的推理。

语言使思维链推理成为可能。复杂的驾驶决策往往需要多步推理：首先识别场景中的关键要素，然后分析它们之间的关系和可能的演化，最后综合考虑做出决策。语言提供了进行这种序列化推理的自然媒介。VLA模型可以被训练生成详细的思维链："1. 检测到前方有施工区域，道路左侧被隔离；2. 当前车道需要向右合并；3. 右后方有车辆正在接近，速度约为我方的1.2倍；4. 结论：先减速让右后方车辆通过，然后再执行并道。"这种显式的推理链不仅提升了决策质量，也为系统的可审计性提供了基础。

语言打通了人机交互的通道。通过理解自然语言指令，VLA模型可以接受乘客的偏好表达（"走风景更好的路线"）、特定的任务指令（"把我送到机场，但先去加油站加满油"），甚至是实时的驾驶建议（"小心，右边那辆车好像没看到我们"）。而如果和座舱语音交互相结合，模型也可以用自然语言与乘客沟通："前方路段拥堵，预计延误15分钟，您是否希望我改走备选路线？"这种双向的语言交互使自动驾驶系统从一个孤立的控制单元进化为智能的出行伙伴。

端到端VLA架构深度解析

端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。这种设计追求的是最大程度的端到端优化—从原始输入到最终动作的整条链路都在一个模型中学习，没有人工设计的接口造成的信息瓶颈。根据输出形式的不同，端到端VLA可以分为文本动作生成器和数值动作生成器两大类。

文本动作生成器：在语言空间中驾驶

文本动作生成器将驾驶决策建模为语言空间中的推理与生成问题。模型的输出是人类可读的符号化决策，这些决策可以是抽象的元动作（meta-action），也可以是以自然语言形式表达的轨迹航点(trajectory waypoints)。

元动作生成是文本动作生成器的基础形式。元动作是离散的、语义化的驾驶决策，如"加速"、"减速"、"保持当前速度"、"向左变道"、"在路口右转"等。这些高层指令构成了VLM推理输出与下游控制系统之间的可解释接口。

DriveMLM[5]是这一方向的开创性工作。它的核心洞察在于：传统自动驾驶系统中的行为规划模块实际上就是在做类似的决策——决定何时换道、何时停车、何时让行。DriveMLM将大语言模型的输出与这些行为规划状态对齐，使语言模型能够作为一个可解释的中间规划器。模型的输入包括前视相机图像和当前驾驶状态，输出则是一系列元动作决策，这些决策随后被传递给传统的运动规划模块来生成具体的轨迹和控制指令。

后续的研究致力于提升元动作生成的质量和一致性。AlphaDrive[6]引入了 GRPO（Group Relative Policy Optimization，DeepSeek提出的强化学习优化方法），GRPO的奖励函数同时考虑三个维度：轨迹质量（生成的轨迹是否安全、高效）、决策正确性（元动作是否符合场景需求）和格式一致性（输出是否遵循预定义的结构）。通过这种多目标优化，模型学会生成既合理又规范的元动作序列。

DriveAgent-R1[7]采取了两阶段的训练策略来增强模型的推理能力。第一阶段在精心构建的思维链数据集上进行监督微调，这个数据集包含了详细的视觉推理过程—模型学会观察场景中的关键元素，分析它们的状态和意图，然后得出决策。第二阶段使用强化学习进行优化，奖励信号来自轨迹执行的质量和元动作的正确性。这种"先学推理、再优化决策"的范式使模型能够产生对驾驶任务真正有用的推理路径，而不仅仅是看起来合理的文本。

Sce2DriveX[8]注意到单帧前视输入在时序和空间理解上的局限：一张静态图像无法反映物体的运动趋势，单一视角也无法覆盖车辆周围的完整环境。因此，它引入了多视角视频流和BEV表示作为额外输入。多视角视频提供了时序信息，模型可以观察到其他车辆是在加速还是减速、行人是在靠近还是远离；BEV表示则提供了与道路拓扑一致的空间理解。融合这些丰富的输入后，模型能够生成更加上下文感知的元决策。

基于轨迹航点的文本生成将动作表达推向了更具体的层次。不同于抽象的"向左变道"，这类方法直接在语言空间中预测未来的坐标序列，如"在接下来的3秒内，依次到达位置(2.1, 0.3)、(4.5, 0.8)、(7.2, 1.5)"。这种设计将推理和规划融合在同一个生成过程中。

DriveLM[9]将自动驾驶建模为图结构的视觉问答任务。它定义了一系列关于感知、预测和规划的问题模板，模型通过回答这些问题来逐步构建对场景的理解和决策。例如："Q: 检测到哪些关键物体？A: 前方30米处有一辆白色轿车，右侧人行道上有一名行人..."，"Q: 你预测这些物体未来会如何移动？A: 白色轿车正在减速，可能准备在下个路口右转..."，"Q: 基于以上分析，你计划的轨迹航点是什么？A: [(2.0, 0.1), (4.2, 0.2), (6.5, 0.3), ...]"。这种结构化的问答方式不仅提升了输出的可解释性，也为模型提供了清晰的推理框架。

EMMA[10]来自Waymo的研究团队，它展示了如何将多种感知和规划任务统一到一个语言驱动的框架中。EMMA的输入包括多视角相机图像和自然语言形式的导航指令（如"在下一个十字路口左转"），输出则是结构化的文本，包含3D目标检测结果、道路图理解、场景描述以及未来轨迹预测。通过将所有这些任务表达为文本生成问题，EMMA避免了为每个任务设计专门头部的需要，展示了大语言模型作为通用任务接口的潜力。

ImpromptuVLA[11]关注的是提升模型在极端案例（corner cases）中的表现。它收集了一个包含8万段剪辑的数据集，专门涵盖各种罕见但重要的场景：突然出现的障碍物、非常规的道路布局、异常的天气条件等。研究发现，在这些多样化的边缘案例上进行预训练，能够显著提升模型的轨迹预测精度和闭环驾驶稳定性。这验证了一个直觉：VLA模型的泛化能力很大程度上取决于训练数据的多样性，而不仅仅是数据量。

其中一个关键的研究问题是如何确保语言推理与轨迹预测的一致性。RDA-Driver[12]专门研究这一问题，提出了约束机制来强制模型的思维链解释与最终的轨迹输出保持逻辑一致。例如，如果推理过程中提到"前方车辆正在急刹车"，那么输出的轨迹就不应该继续高速前进。Drive-R1则使用强化学习来优化这种一致性，将推理文本与轨迹之间的对齐程度作为奖励信号的一部分。

文本动作生成器的核心优势在于其天然的可解释性和推理能力。模型的决策过程通过语言显式地呈现出来，人类可以阅读、理解，并在必要时进行干预。然而，这种设计也面临根本性的挑战：离散的语言符号与连续的控制空间之间存在语义鸿沟。将"向左变道"翻译成精确的转向角序列需要额外的模块或隐式学习；当场景需要微妙的控制调整时（比如在狭窄道路上精确保持车道中心），语言描述可能不够精细。在极端情况下，这种表示的不匹配可能导致轨迹不稳定甚至控制崩溃。

数值动作生成器：精确控制的追求

数值动作生成器保留了VLM的推理能力，同时引入专门的机制来产生精确的数值输出。这类方法的核心思想是：让语言模型负责场景理解和高层推理，而将最终的动作生成交给更适合数值预测的模块。这种方式也更接近具身智能的VLA模型（如RT-2），都将连续动作空间离散化为token，通过语言建模范式实现动作生成。

附加动作头是最直接的实现方式。在VLM的输出层之上添加专门的预测网络，将语义特征映射为连续的轨迹或控制量。

BEVDriver[13]是这一设计的典型代表。它首先使用多模态编码器处理相机图像和语言指令，然后通过BEV投影模块将图像特征转换到鸟瞰视图空间。在BEV空间中，一个基于GRU的预测头逐步生成未来的航点坐标。GRU的递归结构天然适合序列预测任务，每一步的预测都以前一步的输出为条件，保证了生成轨迹的平滑性和连贯性。语言指令通过注意力机制融入BEV特征，使模型能够根据"直行通过路口"或"在前方路口右转"这样的指令生成相应的轨迹。

CoVLA-Agent[14]在数据层面进行了创新。它提出了CoVLA数据集，包含大规模的驾驶视频，每个视频都配有详细的文本描述（描述场景中发生了什么）和对应的轨迹标注。模型的训练同时使用轨迹损失和文本生成损失，这种联合监督被证明能够同时提升可解释性和数值精度—文本生成任务迫使模型学习有意义的场景表示，而这些表示反过来有助于更准确的轨迹预测。动作头部采用了轻量级的MLP设计，保证了推理效率。

DriveMoE[15]将混合专家（Mixture-of-Experts）架构引入VLA。它的动作头不是一个单一的网络，而是由多个"专家"MLP组成，每个专家擅长特定的驾驶技能:有的专门处理车道保持，有的擅长超车机动，有的负责路口转向。一个路由网络根据当前场景和语言指令动态选择激活哪些专家。这种设计的优势在于：每个专家可以专注于学习特定技能的精细控制，而路由网络负责将场景匹配到合适的专家。实验表明，MoE架构在处理多样化驾驶任务时比单一网络更加高效和准确。

SimLingo[16]提出了一个有趣的设计细节：它使用两个解耦的MLP头，一个预测时间维度上的速度航点，另一个预测几何维度上的路径航点。这种分解基于一个洞察：纵向控制（加速/减速）和横向控制（转向）在物理上相对独立，由不同的专门模块处理可能比混合在一起更有效。此外，SimLingo提出了"动作想象"（action dreaming）机制—在训练过程中，模型不仅学习预测动作，还学习想象执行动作后的场景变化，这种自监督信号帮助模型建立动作与后果之间的因果联系。

额外的动作Token代表了另一种设计哲学：与其添加专门的预测头，不如将动作表示统一到语言模型已经擅长处理的token空间中。

AutoVLA[17]是这一方向的代表性工作。它首先构建了一个动作token码本（codebook）—将连续的轨迹空间量化为离散的token。例如，未来3秒的轨迹可能被编码为一个包含若干token的序列，每个token对应轨迹空间中的一个区域。然后，这些动作token与普通的语言token一起在自回归框架中生成：模型可能先输出一段推理文本，然后是一系列动作token，所有这些都在同一个生成过程中完成。这种设计的优雅之处在于统一性，感知、推理、规划都被转化为序列建模问题，可以充分利用大语言模型在序列生成上的强大能力。AutoVLA还使用强化微调来优化这个过程，惩罚冗余的推理token（那些对最终决策没有帮助的文字），提升整体的token效率。

OpenDriveVLA[18]扩展了这一思路，引入了层次化的感知对齐。它不仅将动作表示为token，还将2D和3D感知结果编码为token序列。这些不同层次的表示——图像特征、检测框、3D位置、语义标签、动作指令——被对齐到一个统一的语义空间中。交互token用于建模不同元素之间的关系，如自车与其他交通参与者的交互、道路结构与行驶轨迹的关系等。最终的动作生成变成了在这个丰富的token序列上进行自回归解码。

数值动作生成器的核心优势在于其输出可以直接用于车辆控制，无需额外的转换模块。然而，这种设计通常会牺牲一定的可解释性，动作头或动作token的工作机制不像自然语言那样对人类透明。此外，当使用离散化的动作token时，量化过程会引入精度损失，对于需要精细控制的场景可能不够理想。训练这类模型通常需要大量的标注数据，因为数值回归比文本生成更容易过拟合。

双系统VLA——快与慢的协奏

双系统VLA架构从认知科学中汲取灵感，受到《思考，快与慢》中广为人知的双过程理论的启发，将自动驾驶系统划分为两个互补的子系统：一个负责深思熟虑的高层推理，另一个负责快速反应的底层控制。这种设计反映了人类驾驶员的认知模式—我们大多数时候依靠直觉和习惯进行驾驶（系统1），但在遇到复杂或危险情况时会切换到更审慎的分析模式（系统2）。

显式动作引导：从语言到轨迹的桥梁

在显式动作引导框架中，VLM充当结构化的动作生成器，产生高层的指导信息，这些信息随后由专门的驾驶模块转换或优化为可执行的轨迹。根据指导信息的抽象层次，这类方法主要分为元动作引导和航点监督两种形式。

元动作引导是最直观的双系统设计。VLM输出符号化的驾驶意图，例如"减速"、"变道"、"跟随前车"等，这些意图作为语义先验传递给下游的规划器。规划器的任务是将抽象的意图转化为具体的、满足物理约束的轨迹。

FashionAD[19]是双过程设计的早期实践者。它将一个快速的、数据驱动的规划器与一个较慢的VLM配对。在常规驾驶场景中，快速规划器基于学习到的策略直接生成轨迹，响应延迟低且计算高效。当遇到不确定或复杂的场景时,比如快速规划器的置信度下降或检测到异常情况时，系统会启动VLM进行深入分析。VLM审视场景，生成元动作决策及其理由，这个决策随后指导快速规划器的输出。根据场景复杂度和模型置信度动态决定何时激活VLM。这种设计在计算效率和决策质量之间取得了平衡：大多数时候使用轻量级的快速路径，只在必要时启用重量级的推理路径。

LeapVAD[20]进一步优化了这种架构，引入了经验记忆的概念。它包含两个分支：解析分支（sys-2）和启发式分支(sys-1)。解析分支负责处理新颖或复杂的场景，使用VLM进行完整的推理，并将推理结果存储到记忆库中。记忆库的条目包含场景特征、VLM的推理过程和最终的元动作决策。启发式分支则负责处理熟悉的场景,当新输入与记忆库中的某个条目匹配时，直接检索对应的元动作，无需重新进行VLM推理。这种设计模拟了人类驾驶员的学习过程：刚开始驾驶时需要仔细思考每个决策，但随着经验积累，许多情况可以凭直觉快速处理。

Senna[21]将这种双系统设计推向了更紧密的集成。它由两个组件构成：Senna-VLM和Senna-E2E。Senna-VLM是一个经过驾驶场景微调的视觉语言模型，它接收多视角相机图像和当前驾驶状态，输出自然语言形式的场景描述、推理过程和决策建议。Senna-E2E是一个端到端的轨迹规划器，它接收Senna-VLM的输出（编码为特征向量）以及原始传感器数据，生成最终的轨迹。两个组件可以联合训练，VLM的输出不仅是人类可读的文本，也是E2E规划器可以直接使用的语义特征。这种设计使得高层推理和底层规划能够相互促进：推理帮助规划理解场景意图，规划的反馈又能指导推理聚焦于与驾驶相关的方面。

DiffVLA[22]采用了一种创新的方式来传递元动作信息。VLM分析场景后输出两类决策：横向决策（保持车道、左变道、右变道）和纵向决策（加速、保持、减速）。这些离散决策被编码为one-hot向量，然后注入到一个基于扩散模型的轨迹规划器中。在扩散生成过程中，这些先验向量调制去噪网络的行为，引导轨迹朝着与VLM决策一致的方向生成。例如，当VLM决定"左变道"时，扩散模型会更倾向于生成向左偏移的轨迹样本。这种设计的优势在于：VLM的决策提供了清晰的意图引导，而扩散模型负责在这个意图约束下生成满足运动学约束的平滑轨迹。

DME-Driver[23]引入了更明确的分层结构。它将系统划分为决策模块（Decision-Maker）和执行模块（Executor）两个层次。决策模块基于VLM，负责场景理解、意图推理和高层决策生成。它的输出不仅包括元动作，还包括视觉注意力先验:系统应该重点关注的场景区域。执行模块是一个专门的规划网络，它接收决策模块的输出，将其转化为密集的轨迹航点和控制信号。视觉注意力先验被用于调制执行模块的感知特征，使其聚焦于决策模块认为重要的区域。这种设计实现了"关注什么"和"如何执行"的显式分离。

ReAL-AD[24]将分层结构扩展到三层：策略层（Strategy）、决策层（Decision）和操作层（Operation）。策略层负责最高层次的规划,理解任务目标、分析全局路况、制定驾驶策略。决策层将策略转化为具体的驾驶决策,在这个路口应该直行还是转弯、是否需要变道超车。操作层则将决策转化为可执行的轨迹和控制指令。VLM的推理能力主要体现在策略层和决策层，它生成的情境洞察逐层向下传递，最终指导操作层的规划。这种三层架构更接近人类驾驶员的认知结构：我们首先有一个总体的出行计划，然后根据路况做出即时决策，最后通过精细的操作执行这些决策。

航点监督是另一种显式引导形式，它比元动作更加具体：VLM直接预测粗略的轨迹航点，然后由专门的规划模块将这些粗略航点细化为可执行的轨迹。

DriveVLM[25]采用了分层的"推理到规划"（reasoning-to-planning）流水线。给定输入图像和任务描述，VLM首先生成详细的思维链推理：描述场景中的关键元素、分析它们的运动趋势、评估潜在的风险、制定驾驶策略。在推理的基础上，VLM输出元动作决策和粗略的轨迹航点,这些航点定义了期望轨迹的大致形状，但可能不够平滑或不完全满足运动学约束。一个传统的轨迹规划器（如基于优化的方法）接收这些粗略航点，通过插值、平滑和约束优化，生成最终的、可执行的轨迹。这种设计结合了VLM的推理能力和传统规划器的可靠性,VLM擅长理解"应该做什么"，传统规划器擅长解决"如何做到"。

SOLVE[26]提出了更紧密耦合的推理-规划协同机制。它的VLM和规划器共享视觉编码器,使它们对场景有一致的理解。核心创新是轨迹思维链（Trajectory Chain-of-Thought）模块：VLM不仅生成文本推理，还逐步优化候选轨迹。具体而言，VLM首先提出一组初始候选轨迹，然后通过迭代推理评估和修正这些候选，可能会调整某个航点以避开潜在障碍，或者改变接近路口的速度曲线。这个迭代优化过程以文本形式呈现，使整个规划过程可解释可追溯。最终，端到端规划器从优化后的候选中选择最终轨迹。这种设计使VLM能够深度参与规划过程，而不仅仅是提供高层指导。

显式动作引导方法的核心优势在于保持了VLM决策的可解释性，人类可以阅读VLM的推理过程和决策依据，理解系统为何做出某个选择。同时，将高层推理与底层执行分离也带来了架构上的灵活性，可以独立优化VLM的推理能力和规划器的控制精度。然而，这种设计对VLM输出的准确性和一致性高度敏感：如果VLM的决策存在偏差或表述模糊，这些问题会向下游传播，可能导致规划器生成不恰当的轨迹。确保VLM输出的可靠性是这类方法面临的主要挑战。

隐式表征迁移：知识的悄然流动

隐式表征迁移方法采取了不同的策略：VLM不直接参与运行时的决策过程，而是在训练阶段作为教师模块，将其推理能力和认知先验以隐含特征的形式迁移到紧凑的端到端网络中。大型VLM的推理延迟可能无法满足自动驾驶的实时性要求，但我们可以利用VLM的知识来增强一个轻量级的部署模型。

知识蒸馏是最直接的迁移方式。VLM生成的解释、推理轨迹或结构化语义被"蒸馏"到端到端模型的潜在空间中，使后者能够继承前者的认知能力。

VLP（Vision-Language Planning）[27]是这一方向的早期工作，它的核心思想是将场景理解能力从预训练的语言模型迁移到驾驶规划器。具体而言，VLP使用对比学习目标将规划器的BEV特征与预训练语言嵌入对齐，相似的场景应该对应相似的语言描述，它们的特征表示也应该接近。通过这种对齐，规划器的特征空间被注入了语言模型的语义结构。在推理时，规划器不再需要VLM的参与，但它的特征已经携带了类似的场景理解能力。实验表明，经过语言对齐的规划器在罕见场景上的泛化能力明显优于纯视觉训练的基线。

VLM-AD[28]将知识蒸馏扩展到多种监督信号。它使用VLM为驾驶数据生成两类标注：自由形式的文本解释（描述场景、分析意图、提供推理依据）和结构化的行为标签（如"减速"、"保持车道"等离散类别）。训练时，端到端模型同时学习两个任务：通过对齐头（alignment head）将其特征与VLM的文本解释对齐，通过动作分类头预测行为标签。这种双重监督设计使模型同时获得了深度的语义理解（来自文本对齐）和清晰的决策边界（来自行为分类）。部署时，端到端模型独立运行，计算开销与传统VA模型相当，但性能接近使用VLM的完整系统。

VERDI[29]追求更全面的对齐。它观察到自动驾驶流水线包含多个任务：感知、预测、规划，每个任务都可以从VLM的推理中受益。VERDI在整个流水线的各个阶段都进行对齐：感知模块的输出与VLM对场景元素的描述对齐，预测模块的输出与VLM对未来演化的推理对齐，规划模块的输出与VLM的决策建议对齐。这种全栈对齐确保了VLM的推理能力被均匀地注入到模型的各个部分，而不是集中在某一个模块。

ALN-P3[30]进一步提出了协同蒸馏（co-distillation）的概念。传统蒸馏是单向的，从教师到学生。ALN-P3观察到，端到端模型在某些方面可能比VLM更强（比如精确的几何推理），因此设计了双向的知识流动。VLM向端到端模型传递语义推理能力，端到端模型向VLM反馈空间定位信息，两者在迭代训练中相互提升。最终，端到端模型不仅继承了VLM的优势，还保留并增强了自己的特长。

多模态特征融合是另一种隐式迁移策略。不同于在特征空间进行抽象的对齐，这类方法直接将VLM提取的特征注入到规划器的计算流程中。

InsightDrive[31]提出了语言引导的场景表示方法。VLM首先对输入场景生成详细的文本描述，这些描述会突出场景中的关键区域,可能是一个正在过马路的行人，或者一辆准备变道的车辆。然后，这些文本描述被编码为特征向量，通过交叉注意力机制与BEV特征融合。在交叉注意力中，BEV特征的每个位置都会根据文本描述调整其重要性权重,被文本提及的区域会获得更高的注意力。这种融合使规划器能够"聚焦"于VLM认为重要的部分，而不是均匀地处理所有区域。

VLM-E2E[32]采用了更灵活的门控融合机制。它从VLM的注意力图中提取驾驶员关注点,VLM在生成场景描述时实际上会"看"哪些区域。这些注意力线索被转换为空间权重图，然后通过可学习的门控网络与BEV特征融合。门控网络的作用是动态调节融合的强度,在某些场景下VLM的注意力可能非常相关，应该强融合；在其他场景下可能不太相关，应该弱融合或跳过。这种自适应的融合策略比固定的注意力机制更加灵活。

NetRoller[33]提出从VLM中提取潜在推理变量。VLM在处理场景时会形成一些中间表示,虽然这些表示以语言token的形式存在，但它们编码了对场景的深层理解。NetRoller设计了一个投影网络，将这些潜在表示转换为紧凑的特征向量，可以直接注入实时规划器的计算中。这种方法避免了生成完整文本的计算开销，同时保留了VLM推理的精华。

ReCogDrive[34]将语言先验与扩散规划器相结合。VLM的输出被编码为条件向量，在扩散去噪过程的每一步都用于调制轨迹生成。此外，ReCogDrive还使用强化学习优化整个系统，奖励信号同时考虑安全性（避免碰撞）和类人性（轨迹与人类驾驶员的相似度）。这种设计使得语言先验不仅影响轨迹的形状，还可以影响驾驶的风格。

ETA[35]关注的是计算效率问题。完整的VLM推理可能需要数百毫秒，这对于自动驾驶的实时要求来说太慢了。ETA提出了异步推理机制：VLM的推理在前几帧的数据上进行，其结果被缓存起来；当前帧的规划使用缓存的VLM输出作为指导。为了处理VLM输出可能过时的问题，ETA引入了动作掩码机制——根据场景变化的程度，自适应地决定缓存结果的可靠性。在场景稳定时，完全使用缓存；在场景剧烈变化时，降低缓存的权重。这种设计使VLM的推理可以在"后台"进行，不阻塞实时规划流程。

隐式表征迁移方法的核心优势在于部署效率——运行时只需要轻量级的端到端模型，VLM只在训练阶段使用。然而，这种效率是以可解释性为代价的——蒸馏后的模型是一个黑箱，我们无法直接观察VLM的推理是如何影响最终决策的。此外，蒸馏过程可能会丢失一些微妙的推理信息，特别是当端到端模型的容量有限时，它可能无法完全捕捉VLM的复杂推理能力。

当前挑战与未来方向

VLA模型为自动驾驶带来了冲击自驾行业chatgpt时刻的曙光，但从研究原型到安全可靠的实际部署，仍然需要克服一系列根本性的挑战。同时，VLA相关研究的快速推进和演化，也为VLA的量产落地提供了更清晰的技术实现路径。

亟待解决的技术挑战

实时性约束是VLA模型面临的首要工程挑战。现代VLM动辄拥有数十亿甚至数百亿参数，单次推理可能需要数百毫秒到数秒。然而，自动驾驶系统通常要求端到端延迟低于100毫秒，某些安全关键的反应甚至需要在50毫秒内完成。高分辨率、高帧率的多视角相机输入会产生大量的视觉token，多模态融合进一步加剧了计算负担。虽然模型量化、知识蒸馏、流式处理等技术可以部分缓解这一问题，但在不显著损失性能的前提下实现毫秒级推理仍然是一个开放的研究课题。

领域专用性缺失是另一个结构性问题。当前VLA系统大多基于通用的视觉语言模型，这些模型在海量的互联网数据上预训练，积累了广泛但泛泛的世界知识。然而，自动驾驶有其特殊的领域需求：精确的空间推理能力—判断两车之间是否有足够的变道空间需要厘米级的距离估计；严格的规则遵守—交通法规的约束是刚性的，没有"大致遵守"的余地；对罕见边缘案例的理解，一个从未见过的障碍物类型也必须被正确处理。通用VLM在这些方面的表现往往不够理想。构建专门为驾驶场景设计的基础模型，或者开发更有效的领域适配技术，是提升VLA系统可靠性的关键。

长尾场景的泛化是自动驾驶领域的老问题，在VLA模型上以新的形式呈现。VLA的一个卖点是VLM组件具有良好的泛化能力，它见过大量的世界知识，应该能够处理罕见场景。然而，将感知层面的泛化能力转化为动作层面的仍然面对鲁棒性和泛化性的挑战。VLM可能正确识别了一个异常的交通情况，但它产生的动作指令可能仍然不恰当，因为动作空间的对齐是在有限的驾驶数据上学习的，这些数据可能并未覆盖该异常情况的正确响应。在异常行为的交通参与者、非典型的道路布局、极端的天气条件等长尾场景下仍然可能失效。

幻觉问题是VLA模型引入的新风险。大语言模型有一个众所周知的缺陷：它们可能生成看起来流畅自信但实际上错误的内容，这被称为"幻觉"（hallucination）。在VLA模型中，这种风险更是关乎驾驶安全，模型可能生成一个完全虚构的推理过程来为其错误决策辩护。例如，模型做出了一个危险的变道决策，但它的文字解释可能声称"观察到右后方车辆正在减速让行"，即使这个观察根本不存在。这种幻觉特别危险，因为它给错误决策披上了合理性的外衣，可能误导人类监督者或后续的审计分析。确保感知、推理和动作之间的因果一致性，而不仅仅是文字上的自洽是VLA未来研究的重要方向。

时间一致性是当前Transformer架构的固有局限。驾驶是一个时序过程，当前的决策必须考虑之前发生的事件，并预判未来可能的演化。然而，基于Transformer的VLM受限于固定的上下文窗口，只能处理有限长度的历史信息。当需要理解跨越数十秒甚至数分钟的场景演化时，比如一个复杂路口的多阶段通行过程，模型可能无法维持一致的情境感知。这种时间上的碎片化会导致决策不连贯：模型可能在前一时刻决定超车，但在下一时刻忘记了这个意图，产生矛盾的行为。

面向未来的研究方向

视觉-语言-世界模型的统一应该是最具变革潜力的方向，2025年智驾前沿端到端方案讨论比较多的两条路线，除了VLA就是世界模型。当前的VLA模型大多是"反应式"的，给定当前观测，输出当前动作。更高级的智能应该是"预见式"的，能够想象不同动作的后果，选择导向最佳未来的那个。将VLA与世界模型结合，可以实现这种能力：VLM负责理解场景和进行符号推理，世界模型负责模拟在特定动作下场景如何演化，两者协作实现主动规划。这种设计使系统不仅能够回答"现在应该做什么"，还能够回答"如果我这样做，接下来会发生什么"。

更丰富的多模态融合将进一步提升系统的感知能力。当前多数VLA系统主要依赖相机输入，激光雷达、雷达、事件相机等传感器的融合仍处于初级阶段。未来的架构将整合激光雷达（LiDAR）、雷达（Radar）、事件相机（event cameras）和高精度地图，语言有助于增强语义 grounding，但可靠的 3D 几何信息对于安全决策不可或缺。整体性的多模态融合能够将视觉语言模型（VLMs）的可解释性与几何传感器的空间精度相结合，实现架构互补。

社会意识与知识驱动指向更接近人类的驾驶智能。当前的自动驾驶系统主要学习物理层面的交互规律，保持车距、避免碰撞、遵守信号灯。但人类驾驶员还遵循大量的社会规范和隐性知识：让正在追赶公交车的行人先过、在狭窄路段主动为对向车辆让行、通过灯光和手势与其他驾驶员沟通。这些知识不存在于标准的驾驶数据集中，需要从更广泛的来源获取，包括驾驶教材、交通法规解读、甚至影视作品中的驾驶场景。未来的VLA系统应该能够融合这些知识，实现不仅物理安全而且社会得体的驾驶行为。

持续学习与车载适应解决的是长期部署的问题。静态训练的模型无法应对不断变化的世界，新的道路施工、季节性的景观变化、区域性的驾驶习惯差异。理想的系统应该能够在日常驾驶中持续学习，不断改进自己的能力。然而，这面临两个核心挑战：如何在学习新知识的同时不遗忘旧知识（避免灾难性遗忘），以及如何确保在线学习不会引入安全风险（一个错误的学习样本不应该导致危险的行为改变）。解决这些问题需要在学习算法、系统架构和安全机制方面的协同创新。

标准化评估与安全保证是VLA系统走向实际部署的必要条件。当前的评估基准主要继承自传统的自动驾驶研究，关注轨迹精度、碰撞率等指标。但VLA系统引入了新的风险维度：推理可能失败、指令可能被误解、解释可能与行动不一致。未来的基准需要评估这些VLA特有的能力和风险：多步骤指令的执行准确性、对模糊或矛盾指令的处理能力、解释与行动之间的一致性、对对抗性输入的鲁棒性。除了经验性的测试，形式化验证方法也需要扩展到VLA领域，为安全关键的行为提供数学上的保证。

以人为中心的交互与个性化展望了自动驾驶的社会化未来。VLA系统的语言能力不仅可以用于生成解释，还可以用于丰富的人机交互。乘客可以用自然语言表达出行偏好："今天我想走风景更好的路线，不赶时间"；可以设定个性化的约束："我晕车，请避免频繁变道"；可以在行程中实时沟通："前面那辆车好像要停，小心一点"。系统可以记住每位用户的偏好，逐渐学习并适应其驾驶风格。这种个性化带来了新的挑战：如何在满足个人偏好的同时确保安全底线，如何在多乘客场景下协调不同的需求，如何处理偏好与交通规则之间的潜在冲突。解决这些问题将使自动驾驶从冷冰冰的机器变成温暖的出行伙伴。

结语

VLA模型代表了自动驾驶研究的一次范式跃迁。从最早的ALVINN到今天的VLA，自动驾驶系统经历了从简单反射到复杂推理的演进。VLA不仅让机器学会了"看"和"做"，还赋予了机器"思考"和"沟通"的能力。

这种能力的获得依托于多个技术浪潮的汇聚：大语言模型的突破性进展提供了强大的推理引擎，多模态学习的成熟使视觉与语言的融合成为可能，端到端学习的理念打破了传统模块化架构的桎梏。VLA模型站在这些巨人的肩膀上，为自动驾驶系统带来了前所未有的可解释性、泛化能力和人机交互潜力。

然而，从激动人心的研究成果到安全可靠的实际部署，仍然有很长的路要走。实时性与推理深度的矛盾需要更高效的架构创新来解决；长尾场景的泛化需要更智能的数据利用和知识融合；幻觉与可信度的问题需要从根本上重新思考语言模型的推理机制；而知识静态更新和训练遗忘的问题需要通过持续学习和更智能的记忆方式解决。然而这些挑战不仅自动化驾驶领域存在，属于当前人工智能基础领域研究上需要攻克的难题。

自动驾驶的技术仍然在快速迭代，VLA未必是终解，但自动驾驶的前景方向是清晰而明确的：解放驾驶疲劳，降低交通事故发生率，构建一种既具备驾驶能力、又能进行沟通，既透明可信、又能响应人类意图的驾驶出行自主智能体。

本文基于WorldBench团队发布的综述论文"Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future"整理撰写。

相关资源：

• 项目页面：https://worldbench.github.io/vla4ad
• GitHub仓库：https://github.com/worldbench/awesome-vla-for-ad
• HuggingFace排行榜：https://huggingface.co/spaces/worldbench/vla4ad

其它参考资源: [1]https://arxiv.org/pdf/2301.12597 [2]https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_DriveGPT4-V2_Harnessing_Large_Language_Model_Capabilities_for_Enhanced_Closed-Loop_Autonomous_CVPR_2025_paper.pdf [3]https://papers.neurips.cc/paper_files/paper/1988/file/812b4ba287f5ee0bc9d43bbf5bbe87fb-Paper.pdf [4]https://arxiv.org/pdf/1604.07316 [5]https://arxiv.org/pdf/2312.09245 [6]https://arxiv.org/pdf/2503.07608 [7]https://arxiv.org/pdf/2507.20879 [8]https://arxiv.org/pdf/2502.14917 [9]https://arxiv.org/pdf/2402.12289v5 [10]https://arxiv.org/pdf/2410.23262v3 [11]https://arxiv.org/pdf/2505.23757 [12]https://arxiv.org/pdf/2408.13890 [13]https://arxiv.org/pdf/2503.03074 [14]https://arxiv.org/pdf/2408.10845v1 [15]https://arxiv.org/pdf/2505.16278 [16]https://arxiv.org/pdf/2503.09594v1 [17]https://arxiv.org/pdf/2506.13757 [18]https://arxiv.org/pdf/2503.23463 [19]https://arxiv.org/pdf/2411.18013 [20]https://arxiv.org/pdf/2501.08168 [21]https://arxiv.org/pdf/2410.22313 [22]https://arxiv.org/pdf/2505.19381 [23]https://arxiv.org/pdf/2401.03641 [24]https://arxiv.org/pdf/2507.12499 [25]https://arxiv.org/pdf/2402.12289 [26]https://arxiv.org/pdf/2505.16805 [27]https://arxiv.org/pdf/2401.05577 [28]https://arxiv.org/pdf/2412.14446 [29]https://arxiv.org/pdf/2505.15925 [30]https://arxiv.org/pdf/2505.15158 [31]https://arxiv.org/pdf/2503.13047 [32]https://arxiv.org/pdf/2502.18042 [33]https://arxiv.org/pdf/2506.14589 [34]https://arxiv.org/pdf/2506.08052 [35]https://arxiv.org/pdf/2506.07725v1

文中其它图片使用Gemini Nano Banana Pro 生成

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-12-26，如有侵权请联系 cloudcommunity@tencent.com 删除

数据