Sora也会给智能驾驶带来新变化！

文章来源：企鹅号 - 芝能汽车

芝能科技出品

随着技术的不断发展，智能驾驶行业正经历着一场革命性的变革。Open AI 推出的 Sora 模型在这场变革中崭露头角，成为智能驾驶领域的集大成者。

Sora 的诞生不仅在视频生成长度和逼真度上远超现有竞品，更在技术创新方面引领了智能驾驶行业的未来。Sora 的核心技术创新点——时空编码和 DiT 模型，可能对智能驾驶行业的深远影响。

Sora的核心技术创新

●时空编码：打破视频数据训练的关键

Sora 的时空编码是将完整视频切分成带有时间维度的一系列 Tokens 输入 Transformer 模型的重要创新。类似于语言模型中的 Token，时空编码将视频数据进行划分，为 Sora 进行大规模视频数据训练提供了关键支持。

这项技术使得 Sora 能够高效地处理各种时长、分辨率、长宽比的视频数据，同时保证生成结果在三维空间内具备一致性。

●DiT 模型：Diffusion+Transformer的创新结合

DiT 模型是 Sora 中的另一重要创新，结合了 Diffusion 扩散模型和 Transformer 模型的优势。传统的 Diffusion 模型采用 U-Net 网络结构，通过卷积神经网络实现图像的去噪过程。

而 Sora 将 Transformer 模型替代了传统的 U-Net 网络，使得模型更擅长捕捉长距离的相关关系。这一创新让 Sora 在视频生成中具备更高的准确性和逼真度。

●Sora验证了Diffusion+Transformer技术路线的有效性

Sora 的成功验证了 Diffusion+Transformer 技术路线对于实现世界模型的有效性。目前，神经网络模型的预测结果仅是概率输出，缺乏因果关系的推断能力，容易出现常识错误或违背现实物理规律。

世界模型的概念旨在使神经网络模型更像人类一样理解世界，具备物理世界运行规律、泛化到训练样本以外的能力以及基于记忆进行自我演进的特点。Sora 采用的 Diffusion+Transformer 技术路线为实现世界模型提供了可行性的验证，为智能驾驶领域的技术进步奠定了基础。

Sora与特斯拉的技术路径探索

特斯拉作为另一巨头在智能驾驶领域的探索与 Sora 有相似之处。在 CVPR 会议上，特斯拉展示了对世界模型的探索，效果惊艳。

特斯拉采用了与 Sora 相似的 Diffusion+Transformer 生成式 AI 技术路线。这一趋势表明，世界模型的应用在智能驾驶领域将逐渐得到推广，成为行业的主流技术路径。

短期内，世界模型有望在仿真环节落地，推动仿真场景泛化能力提升。当前智能驾驶仿真采用 NeRF+素材库排列组合+游戏引擎的技术路线，虽然保证了场景的真实性，但泛化性不足。

世界模型的能力在于理解物理世界运行规律，并具备泛化到训练样本以外的能力，从而迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。

长期来看，世界模型有望成为智能驾驶的基座大模型，实现插入任务头的方式处理所有智能驾驶下游任务。这将消除corner case，提高智能驾驶的驾驶安全性和效率，使其占优于人类驾驶员。

小结

Sora 模型的诞生标志着智能驾驶领域技术的新突破。其时空编码和 DiT 模型的创新为视频生成提供了全新的思路，同时验证了 Diffusion+Transformer 技术路线在实现世界模型方面的可行性。

未来，随着世界模型技术在智能驾驶领域的不断发展，我们有望迎来一个智能驾驶的全新时代。

相关快讯