首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2025年的智能驾驶:VLA上车元年

芝能科技出品

2025年被称为“VLA上车元年”,以视觉语言动作模型(Vision-Language-Action Model, VLA)为核心的技术范式正在重塑智能驾驶行业。

VLA不仅融合了视觉语言模型(VLM)的感知能力和端到端模型的决策能力,更引入了“思维链”技术,实现了全局上下文理解与类人推理能力,革命性技术的落地将推动智能驾驶从“功能时代”迈向“体验时代”,并可能在未来两年内改写智能驾驶市场的竞争格局。

我们从VLA的定义与核心价值、以及其对2025年头部车企智能驾驶性能的影响展开深度分析。

01

什么是VLA,

为什么智能驾驶要切换到VLA?

● 什么是 VLA?

VLA 即视觉语言动作模型(Vision - Language - Action Model),最早由 DeepMind 于 2023 年提出并应用在机器人领域。它能够输入给定的文本和视觉数据,输出机器人可执行的动作,具有 AI 与物理世界交互的天然基因。

◎ 从整体框架来看,VLA 可视为 VLM(视觉语言模型)与端到端模型的结合体。

VLM 着重于图像和场景的理解,为智驾决策规划提供输入;而 VLA 则将端到端与多模态大模型更彻底地融合,能够根据感知直接生成车辆的运动规划和决策,更接近 “图像输入、控制输出” 的端到端智驾理想状态。

Google 的 RT - 2 模型通过将 VLM 直接应用于机器人控制,实现了视觉、语言和动作的无缝衔接,提升了机器人的泛化能力和适应性。

◎ 在自动驾驶领域,VLA 模型可以从传感器数据中提取丰富的环境信息,借助语言模型理解人类指令并生成可解释的决策过程,最后将多模态信息转化为具体的驾驶操作指令。

● 智能驾驶切换到 VLA 的原因

随着城区NOA(Navigate on Autopilot)的普及,用户对智能驾驶体验的需求从“能用”转向“好用”。

传统VLM或端到端方案虽然在感知与决策方面有了显著提升,但在复杂路况下仍存在局限:

短视化问题:现有系统通常只能应对7秒内的路况推理,而在突发情况(如交通指挥手势)中表现不足。

缺乏解释能力:用户对“为什么这么开”的需求未被充分满足,导致体验层面信任不足。

决策全局性不足:面对动态复杂场景,传统方案难以统筹多重变量并实现安全优化。

VLA的引入不仅补足了技术短板,也标志着智能驾驶从探索期进入规模化落地期。在2025年,VLA的量产落地预计将推动城区NOA渗透率突破个位数,进一步缩短行业格局的技术差距。

智能驾驶领域的技术路线经历了重大变革。那些能够迅速掌握并应用VLA的企业,已经在竞争中占据了有利位置,并展示了其在技术创新方面的前瞻性。

市场竞争焦点从单纯的功能实现转向了更深层次的技术范式竞争,强调技术架构的先进性和可持续性发展。

VLA技术的应用不仅推动了企业在相关技术研发上的投入,还促使整个行业重新审视和制定相应的标准与规范,以适应新技术带来的挑战,确保智能驾驶的安全性、可靠性和可解释性,从而促进该行业的健康稳定发展。

能否及时跟上这一波技术革新潮流,成为了决定企业是否能在未来智能驾驶市场中脱颖而出的关键因素。

02

2025年VLA上车后,

智能驾驶头部车企

的性能会拉开差距吗?

2025年,随着VLA技术的上车,智能驾驶头部车企的性能将显著拉开差距,主要体现在技术积累、数据规模和算力支持等方面,头部企业在端到端和视觉语言模型(VLM)领域已有丰富的经验积累,能够更快实现VLA的研发和落地。

此外,通过爆款车型积累了海量驾驶数据,为VLA的训练和优化提供了坚实基础。英伟达Thor等高性能芯片的量产也为VLA的上车提供了强大的算力保障,头部车企在芯片适配和优化方面具备先发优势。

● “技术-数据飞轮”的竞速:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLgbn365GlVoYN92PpeKYPUQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券