一直以来,信息过载是AI无法替代人类的一大弱点,因为人类懂得集中注意力,小鹏汽车意识到了这一点。
近日,何小鹏的一条微博显示,小鹏与北京大学联合研究团队联合开发名为FastDriveVLA的创新框架,通过让系统模仿人类“选择性注意”的能力,仅需处理约四分之一视觉信息,即可保持甚至提升驾驶性能。
这项研究开源了包含24.1万张标注图像的nuScenes-FG数据集,为整个自动驾驶研究提供了新工具和新方向。
技术突破
现有VLA模型对摄像头捕捉的每一点视觉信息都平等对待。这如同要求驾驶员在复杂路口同时阅读所有路牌、行人甚至他们手里拿着什么东西,导致决策延迟高、计算负担重,严重制约了系统实时性。
小鹏与北大团队提出的FastDriveVLA框架核心创新在于其独特的注意力筛选机制。研究团队从人类驾驶行为中获得关键启示,经验丰富的驾驶员会本能地专注于动态车辆、行人、交通信号等关键信息。
研究团队开发了名为ReconPruner的即插即用剪枝模块,用筛选后的少量关键“视觉词元”来重建原始图像的前景部分
为训练这一注意力筛选器,研究团队采用了双重重建训练策略。该系统不仅要证明自己能保留关键信息,还要证明自己正确丢弃了非关键信息。
如果重建成功,证明系统准确识别并保留了驾驶决策所需的核心要素。这一正一反的对抗训练,迫使系统必须精准区分前景与背景,避免“偷懒”或“过度保留”。
在权威的nuScenes自动驾驶数据集上进行测试时,该框架展现出令人瞩目的效果。当剪除高达75%的视觉信息时,系统仍能保持高规划精度,而计算量却减少了近7.5倍。
多重意义
这一数据意味着系统处理延迟大幅降低,为实时决策争取了宝贵的时间窗口。更令人意外的是,适度剪枝后的模型在轨迹误差与碰撞率指标上甚至优于未剪枝的原模型。
这项技术突破的价值远不止于“节省算力”这一表面优势,它为高阶自动驾驶的工程化落地扫清了多重障碍。
最直接的效益是算力需求的革命性降低。实验显示视觉信息处理量最大可减少75%,相当于计算量降低约7.5倍,这对降低车载芯片性能要求、控制整车成本和能耗具有重大意义。
在安全层面,这项技术实现了本质性赋能。通过聚焦关键风险要素,系统减少了因处理海量无效背景信息而导致的判断干扰,使核心驾驶决策更加可靠。
节省下的算力资源可在复杂场景下重新分配给更精细的感知预测模块,提升了系统的安全上限。
从产业化角度看,这项技术是连接前沿算法与量产应用的关键桥梁。以Transformer、VLA为代表的端到端大模型虽是公认的技术方向,但其巨大算力需求一直是量产难题。
FastDriveVLA提供了可行的瘦身方案,使先进模型能够适配现有车规级芯片。这意味着高阶智能驾驶功能有望摆脱对昂贵硬件的依赖,下探至更主流的10-20万元价位市场。