首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sora也会给智能驾驶带来新变化!

芝能科技出品

随着技术的不断发展,智能驾驶行业正经历着一场革命性的变革。Open AI 推出的 Sora 模型在这场变革中崭露头角,成为智能驾驶领域的集大成者。

Sora 的诞生不仅在视频生成长度和逼真度上远超现有竞品,更在技术创新方面引领了智能驾驶行业的未来。Sora 的核心技术创新点——时空编码和 DiT 模型,可能对智能驾驶行业的深远影响。

01

Sora的核心技术创新

●时空编码:打破视频数据训练的关键

Sora 的时空编码是将完整视频切分成带有时间维度的一系列 Tokens 输入 Transformer 模型的重要创新。类似于语言模型中的 Token,时空编码将视频数据进行划分,为 Sora 进行大规模视频数据训练提供了关键支持。

这项技术使得 Sora 能够高效地处理各种时长、分辨率、长宽比的视频数据,同时保证生成结果在三维空间内具备一致性。

●DiT 模型:Diffusion+Transformer的创新结合

DiT 模型是 Sora 中的另一重要创新,结合了 Diffusion 扩散模型和 Transformer 模型的优势。传统的 Diffusion 模型采用 U-Net 网络结构,通过卷积神经网络实现图像的去噪过程。

而 Sora 将 Transformer 模型替代了传统的 U-Net 网络,使得模型更擅长捕捉长距离的相关关系。这一创新让 Sora 在视频生成中具备更高的准确性和逼真度。

●Sora验证了Diffusion+Transformer技术路线的有效性

Sora 的成功验证了 Diffusion+Transformer 技术路线对于实现世界模型的有效性。目前,神经网络模型的预测结果仅是概率输出,缺乏因果关系的推断能力,容易出现常识错误或违背现实物理规律。

世界模型的概念旨在使神经网络模型更像人类一样理解世界,具备物理世界运行规律、泛化到训练样本以外的能力以及基于记忆进行自我演进的特点。Sora 采用的 Diffusion+Transformer 技术路线为实现世界模型提供了可行性的验证,为智能驾驶领域的技术进步奠定了基础。

02

2

Sora与特斯拉的技术路径探索

特斯拉作为另一巨头在智能驾驶领域的探索与 Sora 有相似之处。在 CVPR 会议上,特斯拉展示了对世界模型的探索,效果惊艳。

特斯拉采用了与 Sora 相似的 Diffusion+Transformer 生成式 AI 技术路线。这一趋势表明,世界模型的应用在智能驾驶领域将逐渐得到推广,成为行业的主流技术路径。

短期内,世界模型有望在仿真环节落地,推动仿真场景泛化能力提升。当前智能驾驶仿真采用 NeRF+素材库排列组合+游戏引擎的技术路线,虽然保证了场景的真实性,但泛化性不足。

世界模型的能力在于理解物理世界运行规律,并具备泛化到训练样本以外的能力,从而迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。

长期来看,世界模型有望成为智能驾驶的基座大模型,实现插入任务头的方式处理所有智能驾驶下游任务。这将消除corner case,提高智能驾驶的驾驶安全性和效率,使其占优于人类驾驶员。

小结

Sora 模型的诞生标志着智能驾驶领域技术的新突破。其时空编码和 DiT 模型的创新为视频生成提供了全新的思路,同时验证了 Diffusion+Transformer 技术路线在实现世界模型方面的可行性。

未来,随着世界模型技术在智能驾驶领域的不断发展,我们有望迎来一个智能驾驶的全新时代。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OksGDhm6U9ZvnOQcuU1sI9TQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券