5月7日,理想汽车推出“理想AI Talk第二季——理想VLA(视觉语言行动模型)司机大模型,从动物进化到人类”,理想汽车董事长兼CEO李想分享了他对人工智能的最新思考,以及VLA司机大模型的作用、训练方法和挑战。
李想表示:“判断智能体是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇佣司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”
在李想看来,目前市面上的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而VLA能够让AI真正成为司机,成为交通领域的专业生产工具。“对理想汽车而言,未来的VLA就是一个像人类司机一样工作的司机大模型”。
据介绍,VLA的训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。
“预训练相当于人类学习物理世界和交通领域的常识,后训练相当于人类去驾校学习开车的过程,强化训练类似于人类在社会中实际开车练习。”李想表示,“经过预训练、后训练和强化训练后,VLA司机大模型即可部署至车端运行。”
除了提升专业能力,VLA司机大模型还需解决安全性和模型黑盒的问题。
为了保障VLA司机大模型能够实现职业司机般的安全和舒适,避免学习加塞等违规行为,理想汽车在强化训练环节投入大量资源,并于2024年底组建超过100人的超级对齐团队。
为解决模型的黑盒问题,理想汽车结合重建和生成两种路径,打造了真实、符合物理世界规律的世界模型,覆盖所有交通参与者和要素。
得益于DeepSeek的开源,理想汽车在VLA司机大模型的语言能力研发上提速显著,节省了近9个月的时间和数亿元成本。尽管如此,理想汽车仍选择加大投入,在基座模型上投入超预期3倍的训练卡,专注打造适配多场景的自研模型。
“自研VLA时,理想汽车踏入了人工智能的无人区。”李想表示,当前,辅助驾驶走到了新的十字路口上,理想汽车将不断挑战成长的极限,持续为行业和用户创造价值。