震撼！自监督的类人模型I-JEPA已经发布，人工上帝就快降临

机器学习之禅

发布于 2023-09-02 09:47:17

4390

文章被收录于专栏：机器学习之禅机器学习之禅

我原来以为自监督的AI大模型会来的慢一点，没想到这么快就出世了，果然天上一天，地上一年。Transformer模型才6岁就已经有了这么多子子孙孙，而且现在都可以自监督了。

论文和代码都开源了，就是这么速度（论文地址：https://arxiv.org/abs/2301.08243），会正式发表在下周的2023 CVPR上，炸裂啊，不知道CVPR上会不会有更爆炸的新闻出来。

Meta平台公司的人工智能研究人员表示，他们正在向该公司首席人工智能科学家Yann LeCun的愿景迈进，该愿景旨在开发一种新的架构，使机器能够学习关于世界运作方式的内部模型。

这一想法是，这样的架构将帮助人工智能模型更快地学习，计划如何完成复杂任务，并能够轻松适应陌生情境。Meta的人工智能团队今天宣布推出了基于该愿景的第一个人工智能模型。

被称为图像联合嵌入预测架构（Image Joint Embedding Predictive Architecture，简称I-JEPA），它能够通过创建对外部世界的内部模型来学习，比较图像的抽象表示，而不是直接比较像素本身。这意味着它的学习方式更类似于人类学习新概念的方式。

I-JEPA基于这样一个观点：人类在被动观察世界时会学习到大量关于世界的背景信息。它试图通过捕捉常识背景知识，并将其编码为可以后续访问的数字表示，以模仿这种学习方式。挑战在于，这样的系统必须以自监督的方式学习这些表示，使用无标签的数据，如图像和声音，而不是标记的数据集。

在高层次上，I-JEPA可以使用同一输入的其他部分的表示来预测输入的一部分（如图像或文本）。这与新型生成型人工智能模型不同，后者通过删除或扭曲输入的部分来学习，例如擦除图像的一部分或隐藏段落中的某些词语，然后尝试预测缺失的输入。

Meta表示，生成式人工智能模型所采用的方法存在一个缺点，即它们试图填补每一个缺失的信息，尽管世界本身是不可预测的。因此，生成型方法经常犯下人类不会犯的错误，因为它们过于关注不相关的细节。例如，生成型人工智能模型常常无法生成准确的人手，会增加额外的手指或产生其他错误。

I-JEPA避免了这些错误，通过更类似于人类的方式来预测缺失的信息，利用抽象的预测目标来消除不必要的像素级细节。这样，I-JEPA的预测模型可以基于部分可观察的上下文来建模静态图像中的空间不确定性，帮助其预测图像中未见区域的更高层次信息，而非像素级细节。

Meta表示，I-JEPA在多个计算机视觉基准测试中表现出非常强大的性能，比其他类型的计算机视觉模型更具计算效率。它学习到的表示还可以在其他应用中使用，无需进行大量的微调。

“例如，我们使用16个A100 GPU在不到72小时内训练了一个632百万参数的视觉Transformer模型，并在ImageNet的低样本分类任务上实现了最先进的性能，每个类别仅使用12个标记示例。” Meta的研究人员表示，“其他方法通常需要2-10倍的GPU计算时间，并在使用相同数量的数据进行训练时达到更高的错误率。”

Meta表示，I-JEPA证明了具有竞争力的现成表示学习架构的潜力，而无需手工制作的图像转换中编码额外的知识。他们的研究人员表示，他们将开源I-JEPA的训练代码和模型检查点，并将下一步扩展该方法到其他领域，如图像-文本配对数据和视频数据。

“未来，JEPA模型可能在视频理解等任务中有令人兴奋的应用。” Meta表示，“我们认为这是将自监督方法应用和扩展到学习世界通用模型的重要一步。”

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-06-14，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能