首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

李想谈VLA:我们走的是无人区

5月7日,理想汽车推出“理想AI Talk第二季”,理想汽车董事长兼CEO李想分享了理想汽车对人工智能与VLA司机大模型的思考。

李想认为AI工具分为三个层级,分别是信息工具、辅助工具和生产工具。目前,大多数人将AI作为信息工具使用,但信息工具常伴随大量无效信息、无效结果和无效结论,仅具参考价值。成为辅助工具后,AI可以提升效率,例如现在的辅助驾驶,但仍需人类参与。

“我认为Agent(智能体)是否智能,最重要的评判条件是它是否是个生产工具,它是否真正能替代我去完成专业的工作,它是否真的在产生有效的生产力、真正改变我们的工作的成果、减少我们的工作时长。”李想表示,“只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇用司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”

李想认为,VLA(Vision-Language-Action Model,视觉语言行动模型)对于理想汽车来说,是一个司机大模型,是一个让AI像人类司机一样去工作的模型。

VLA的实现不是一个突变的过程,而是进化的过程,经历了三个阶段:

第一阶段是“昆虫动物智能”,为算法和高精地图的辅助驾驶,2021年,理想汽车开始了这一阶段。“这一阶段需要通过机器学习感知,配合规则算法,需要依赖高精地图,就像蚂蚁行动和完成任务的方式。”李想分析,“这一阶段的效率比较低,规则算法的整个规模只有几百万参数,那么小的脑子,完成复杂的事基本不可能。”

第二阶段为“哺乳动物智能”,为端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶。理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM。“端到端比较像哺乳动物的智能,比如马戏团的动物向人类学习骑自行车,端到端就是学习人类的各种行为开车。”李想表示,“但端到端对物理世界并不理解,它可以应付大部分泛化问题,但应对没有学过的、特别复杂的状况就会遇到问题。所以我们要配合VLM,但VLM也只能起到非常有限的辅助作用。”

第三阶段为“人类智能”阶段。“它会像人类一样,利用3D视觉和2D的组合去看整个真实的物理世界,它能读懂导航软件,而不是像VLM那样,只看到一张图片。他拥有自己的整个脑系统,不但能看到物理世界,还能够理解物理世界。它有它的language(语言),有它的CoT(思维链),具备推理能力,可以像人类一样执行行动。执行一些复杂动作,在汽车自动驾驶领域称之为VLA的司机大模型。”李想解释。

VLA的训练将经历分为预训练、后训练和强化训练三个环节。

预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

后训练相当于人类去驾校学习开车的过程。随着Action(动作)数据的加入——即对周围环境和自车驾驶行为的编码,VL基座变为VLA司机大模型。得益于短链条的CoT,以及Diffusion扩散模型对于他车轨迹和环境的预测,VLA具备实时性的特点,实现了在复杂交通环境中的博弈能力。

强化训练类似于人类在社会中实际开车练习,目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。强化训练包含两部分:一是通过RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)完成安全对齐,使模型遵守交通规则,贴合中国用户的驾驶习惯;二是将纯强化学习模型放入世界模型中训练,提升舒适性,避免碰撞事故,遵守交通规则。

既然VLA的能力如此之高,可否越过端到端直接实现?“没有可能。”李想打了个形象的比喻,一般人们可能吃到第十个包子就饱了,但没有办法跳过前面的包子直接吃到第十个包子。

据李想介绍,VLA司机大模型以“司机Agent(智能体)”的产品形态呈现,部署至车端运行。李想认为VLA能够解决全自动驾驶,将成为现阶段能力最强的架构,甚至有机会超越人类开车的能力。

不过能力越强,责任越大。李想认为判断司机Agent是不是个好司机与评判员工的标准相同:“第一,看他的专业能力;第二看他的职业性;第三看他与别人构建信任的能力。”VLA司机大模型提升了专业能力,VLA通过理解自然语言、具备记忆能力提升了构建信任的能力,司机Agent职业能力的实现则依靠超级对齐。

为了保障VLA司机大模型能够实现职业司机般的安全,理想汽车在强化训练环节投入大量资源,并于2024年底组建超过100人的超级对齐团队,相当于为司机Agent注入职业素养。

在谈到VLA训练过程中,哪个步骤最难时,李想坦言无法预测。“因为我们前面没有任何人走过这条路。DeepSeek也没走过这条路,OpenAI也没有走过这条路,谷歌、Waymo也没有走过这条路。我们其实走的是一个无人区。”

创业路上的苦多于甜,不过李想表示将会保持高中时的思维方式:“遇到问题,解决问题,解决别人不愿解决的问题,解决消费者最大的问题。”

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OkA3B-aOlU_y3Y21fph7c4SQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券