知言 | 大模型是否是高阶智能驾驶的最优解？

文章来源：企鹅号 - 焉知汽车

知言：知无不言·言无不尽

端到端自动驾驶是一种很有前途的模式，因为它避开了与模块化系统相关的缺点，比如较高的系统复杂性。有评论说，大模型出现后自动驾驶将产生颠覆性的改变。在我们看来，在像大模型这样的技术变革出现时，虽然有很多老的问题解决了、消失了，同时认识环境并做出相应反应的工具也变强了，但是随之而来也会有更多全新的问题和场景出现，等待我们探索。

在此背景下，本期焉知「知言沙龙」诚邀10位左右业内同仁，11月4日（周六）在浦东进行线下+闭门交流，积极拥抱这个新的变化，迅速站上大模型巨人的肩膀，探索甚至开辟属于自己的方向、方法和应用。

活动信息

大模型那些事儿

1. 基础理论：大模型的基础理论是什么？

大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性，耳熟能详的如Few/Zero-Shot Learning、In-Context Learning、Chain-of-Thought能力、稀疏激活和功能分区特性等等。

如何为大模型建立坚实的理论基础，才能让大模型在自动驾驶应用中行稳致远。

自动驾驶应用过程中大模型学到了什么？大模型知道什么还不知道什么，有哪些能力是大模型才能习得而小模型无法学到的?大模型为什么好？都是需要我们重点关注的问题。

如何训好大模型？随着自动驾驶来自其多模态的数据积累，其应用的大模型规模也将不断增大，如何掌握训练大模型的规律，其中包含众多问题，例如数据如何准备和组合，如何寻找最优训练配置，如何预知下游任务的性能等等。

因此，有必要记录大模型所呈现的各种特性，供深入研究探索。

2. 网络架构：Transformer是终极框架吗？

端到端驾驶有两种主要方法：要么通过强化学习（RL）探索和改进驾驶模型，要么使用模仿学习（IL）以监督的方式训练驾驶模型，以模仿人类驾驶行为。监督学习范式旨在从专家演示中学习驾驶风格，作为模型的训练示例。然而，扩展基于IL的自动驾驶系统具有挑战性，因为不可能覆盖学习阶段的每个实例。另一方面，RL的工作原理是通过与环境的互动，随着时间的推移最大化累积奖励，网络根据其行为做出驾驶决策以获得奖励或处罚。虽然RL模型训练是在线进行的，并且可以在训练过程中探索环境，但与模仿学习相比，它在利用数据方面的效果较差。

此外，目前大模型主流网络架构是2017年提出的Transformer。日益统一的Transformer网络架构，以及各领域日益统一的基础模型，为建立标准化的大模型系统，将人工智能能力低门槛地部署到各行各业带来可能性。但是随着模型规模增长，我们也看到性能提升出现边际递减的情况，Transformer是不是终极框架？能否找到比Transformer更好、更高效的网络框架？这都是值得探索的基础问题。

3. 高效计算：如何使大模型更加高效？

现在自动驾驶数据采集动辄包含十亿、百亿甚至千亿参数需要利用大模型进行计算。随着自动驾驶多模态数据的不断激增，其对大模型的规模要求也越变越大，对计算和存储成本的消耗也越来越大。

对于自动驾驶这种车载移动平台而言，其计算能耗在综合设计和训练人工智能模型中是需要特别关注的部分。针对这个问题，我们认为非常有必要讨论如何为大模型建立高效的计算和存储体系。

针对如上高效计算的问题，考虑如何在大量的优化策略中根据硬件资源条件自动选择最合适的优化策略组合，是值得进一步探索的问题。此外，现有的工作通常针对通用的深度神经网络设计优化策略，如何结合 Transformer 大模型的特性做针对性的优化也是有待进一步研究的方向。

4. 高效适配：大模型如何适配到下游任务？

模型适配会关注某些具体的场景或者任务的表现，同时也开始关注通用能力的提升以及与实际应用场景在使用方式上的对齐。因为，基础模型越大在已知任务上效果越好，同时也展现出支持复杂任务的潜力。而相应地，更大的基础模型适配到下游任务的计算和存储开销也会显著增大。

因此，大模型一旦训好之后，如何适配到下游任务呢？这就需要研究面向下游任务的模型适配，对应现在比较流行的术语是“对齐”（Alignment）。比如感知到模型注入了更多对复杂场景的认知，那么对于规控模块来说就需要针对性的对这些复杂场景产生更多的可解释的模型预测及控制执行策略。甚至加入社会伦理、博弈论的理论分析来适配上游感知所需要控制执行端产生的不同控制输出。

5. 认知学习：如何使大模型获得高级认知能力？

人类高级认知能力体现在能够在各种复杂驾驶场景应用到高智商的解决方法，而在大模型注入到机器学习时，并不谋求将所有信息都记在人脑中，而是善于利用各种外部工具，将从未遇到过的复杂任务并拆解为已知解决方案的简单任务，然后基于简单任务的推理最终完成复杂任务。

如何使大模型获得高级认知能力将是大模型未来值得探索的重要方向。纵观深度学习和大模型的发展历程，持续验证了“更多数据带来更多智能”（More Data, More Intelligence）原则的普适性。现在智驾领域实际上面向多模态应用的大模型虽然在很多方面取得了显著突破，但是生成幻觉问题依然严重，在智驾领域这种功能安全要求极高的任务上这种不可信、不专业的幻觉是完全不能接受的。因此，从多种模态数据中学习更加开放和复杂的知识，将会是未来拓展大模型能力边界及提升智能水平的重要途径。

当然多模态也就意味着大模型建得越来越大，结构种类、数据源种类、训练目标种类也越来越多，这些模型的性能提升到底有多少？在哪些方面我们仍需努力？有关大模型性能评价的问题，采用一个科学的标准去判断大模型的长处和不足也是提升大模型认知能力不可或缺的一部分。

知言，是焉知汽车组织的『线下+闭门+深度』交流沙龙，平均每月1期，每期10人左右，参与人员均从事和话题紧密相关的工作，均需就讨论话题发表自己的思考或观点。

知言，无任何费用，不拍照，也不对外展示。后期撰写文章涉及相关内容时，也不会对外展示参与人员信息，会充分尊重参与人员的个人信息权。

知言，是焉知汽车打造的纯粹、深度、细分、专业内容交流平台，既有专业的火花碰撞，也有不同见解的摩擦，还有胡侃谈笑间的轻松交友。

行业很大圈子很小，每月一下午，知无不言言无不尽！

发表于: 2023-10-052023-10-05 20:28:04
原文链接：https://page.om.qq.com/page/OgS1vnWnFMC-_2D9628tWxhQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

知言 | 大模型是否是高阶智能驾驶的最优解？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐