Meta推出视频AI模型V-JEPA！通过看视频学习世界！欲与Sora争夺世界模型的称呼！

文章来源：企鹅号 - AI变革指南

最近火爆的Sora引发了大家对世界模型的讨论，觉得通用人工智能可能不远了！

但是Meta的首席科学家首席AI科学家、图灵奖得主Yann LeCun却认为Sora虽然看着不错，但是不是通用人工智能的世界模型！他认为Sora没有理解世界，只是概率预测。

随后，Meta推出了新的AI模型，叫做视频联合嵌入预测架构（V-JEPA），并开源了相关的论文和代码。

那么，能否让AI也具备这样的能力，通过观察视频来学习世界的内部模型呢？这是Meta（原Facebook）的首席AI科学家、图灵奖得主Yann LeCun的一个长期愿景，他称之为先进机器智能（AMI）。为了实现这个愿景，Meta最近发布了一种

V-JEPA是什么？

你是否曾经想过，人类是如何从视觉观察中学习到世界的规律和知识的？

我们可以通过看到一辆汽车在路上行驶，就能预测它的速度和方向；

我们可以通过看到一个人的表情和动作，就能感知他的情绪和意图。

这些都是我们的内部世界模型，它帮助我们理解、预测和适应外部环境。

V-JEPA就是一种从视频中学习表示的自监督学习方法，它可以像人类一样通过视频学习理解（有待验证是否如Meta所说）世界。V-JEPA是基于Yann LeCun在2022年提出的联合嵌入预测架构（JEPA）的思想，将其扩展到了视频领域。根据Meta说法，V-JEPA看完200万个视频后，V-JEPA理解世界了！

在下面的视频里，V-JEPA预测了 “将纸张撕成两半”，还能对遮挡物进行预测，具体看官方示例

V-JEPA可以应用于各种下游视觉任务，比如图像分类、动作分类和时空动作检测。V-JEPA的核心思想是，通过在一个抽象的表示空间中预测视频中被遮挡的部分来训练一个视觉编码器。这样，它可以专注于视频中的高级概念信息，而不需要重建每个像素。

V-JEPA的优势：

它是一种非生成的方法，它不需要生成完整的视频帧，而是只预测视频帧的特征表示。这样，它可以避免生成不可预测的信息，比如背景噪声、光照变化等，从而提高了训练和采样的效率。

它是一种自监督的方法，它不需要使用任何标注的数据来进行预训练，只需要使用大量的未标注的视频数据。这样，它可以利用海量的视频资源，学习到更丰富和更通用的特征表示。

它是一种可适应的方法，它可以在预训练后不需要调整编码器和预测器的参数，只需要在其上方添加一个轻量级的专用层来适应不同的任务。这样，它可以节省了微调的时间和计算资源，同时保持了较高的性能。

V-JEPA是一个具有创新意义的AI模型，它为实现更接近人类的机器智能提供了一个新的思路和方法。通过观察视频来学习世界的内部模型，V-JEPA可以从视觉数据中提取出更丰富和更通用的特征表示，从而提高AI在各种视觉任务上的性能和效率。

V-JEPA也是一个具有实用价值的AI模型，它可以应用于多种领域和场景，比如智能监控、自动驾驶、虚拟现实、教育娱乐等，为人类的生活和工作带来便利和乐趣。

总之，V-JEPA是一个值得关注和学习的AI模型，它展示了AI通过观察视频来学习世界的内部模型的可能性和潜力。我们期待V-JEPA能够在未来带来更多的惊喜和进步，为实现更接近人类的机器智能做出贡献。

代码地址：

https://github.com/facebookresearch/jepa

项目地址：

https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

发表于: 2024-02-222024-02-22 07:08:00
原文链接：https://page.om.qq.com/page/OsbJ_SkuJ5jz-A4CkngJuK9w0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Meta推出视频AI模型V-JEPA！通过看视频学习世界！欲与Sora争夺世界模型的称呼！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐