首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

I-JEPA:像人一样学习推理的AI图片模型(Meta公司发布)

正文:

近期Meta公司发布了一个AI图片学习模型I-JEPA,它是一种基于类人推理的图像自监督学习模型,它可以从单张图像中学习出有用的表示,而不需要使用数据增强或多视图技术。

它可以在抽象表示空间中进行预测和推理,而不是在像素空间中进行生成。它可以在多个计算机视觉任务上表现出强大的性能,并且具有很好的可扩展性和可迁移性。是Meta AI公司首席AI科学家杨立昆(Yann LeCun)提出的一种新型架构的第一个实现,其目标是创建更接近人类智能的AI系统。

以下为项目的具体地址,如需帮助请关注并私信我:

https://github.com/facebookresearch/ijepa

AI模型相关论文地址:

https://github.com/facebookresearch/ijepa

自监督学习是什么?

人工智能 (AI) 是当今科技领域最热门的话题之一,它涉及到许多不同的子领域,如计算机视觉、自然语言处理、机器学习等。在这些子领域中,有一个共同的挑战,就是如何让AI系统能够从大量的未标注数据中学习有用的知识和表示,从而提高其在各种任务上的性能和泛化能力。这就是所谓的自监督学习 (self-supervised learning)。

自监督学习是一种机器学习方法,它不依赖于人工标注的数据,而是利用数据本身的结构或属性来生成标签或目标。通过这种方式,自监督学习可以充分利用海量的数据资源,发现其中隐含的模式和规律,从而学习出具有丰富语义和结构信息的表示。这些表示可以作为其他下游任务的输入或特征,提高其效率和准确度。

自监督学习的两种常见方法

在计算机视觉领域,自监督学习主要有两种常见的方法:基于不变性 (invariance-based) 的方法和基于生成 (generative-based) 的方法。基于不变性的方法旨在训练模型在不同视角或变换下对图像进行编码,使得编码后的表示具有一致性或相似性。

这种方法可以捕捉图像中的高层语义信息,但也可能引入一些偏差或失真。基于生成的方法旨在训练模型根据给定的分布生成逼真的图像样本,并间接地学习出有意义的表示。这种方法可以捕捉图像中的低层细节信息,但也可能忽略一些高层语义信息。

新颖的自监督学习模型I-JEPA

为了克服这两种方法的局限性,Meta AI公司最近发布了一种新颖的自监督学习模型,名为I-JEPA (Image Joint Embedding Predictive Architecture)。该模型是基于Meta AI首席AI科学家Yann LeCun提出的一种新型架构,其目标是创建更接近人类智能的AI系统。LeCun认为,要实现这一目标,AI系统需要能够学习内部模型来理解世界是如何运作的,从而能够快速地学习新概念、规划如何完成复杂任务、并适应陌生情况。

I-JEPA是基于LeCun愿景中一个关键组件的第一个AI模型。该模型通过创建一个内部世界模型来进行学习,该模型将图像转换为抽象表示,并比较不同表示之间的相容性或相似性(而不是直接比较像素)。I-JEPA在多个计算机视觉任务上表现出强大的性能,并且比其他广泛使用的计算机视觉模型更具计算效率。

I-JEPA学习到的表示也可以用于许多不同的应用,而不需要进行大量的微调。例如,meta使用16个A100 GPU在不到72小时内训练了一个632M参数的视觉变换器模型,它在ImageNet上的低样本分类任务上达到了最先进的性能,每个类别只需要12个标注样本。其他方法通常需要两到十倍的GPU时间,并且在使用相同数量的数据进行训练时,错误率更高。

I-JEPA有什么优势?

它可以从单张图像中学习出有用的表示,而不需要使用数据增强或多视图技术。这样可以减少计算开销和内存需求,并提高训练效率。

它可以在抽象表示空间中进行预测和推理,而不是在像素空间中进行生成。这样可以避免一些常见的生成错误,如模糊、失真、重复等,并提高语义和结构信息的保留。

它可以在多个计算机视觉任务上表现出强大的性能,并且具有很好的可扩展性和可迁移性。它可以适应不同大小和分辨率的图像,并且可以很容易地适应不同领域或任务。

在以下几个计算机视觉任务上评估了I-JEPA模型:

图像分类 (image classification):给定一张图像,判断它属于哪个类别。

目标检测 (object detection):给定一张图像,找出其中包含哪些物体,并用矩形框标出它们的位置。

实例分割 (instance segmentation):给定一张图像,找出其中包含哪些物体,并用不同颜色的区域标出它们的形状。

图像检索 (image retrieval):给定一张查询图像,从一个图像库中找出与之最相似的图像。

meta将I-JEPA模型与其他一些基于自监督学习的模型进行了比较,包括SimCLR、MoCo、BYOL、SwAV、Barlow Twins等。meta发现,I-JEPA模型在所有任务上都取得了最好或接近最好的结果,证明了它的有效性和通用性。meta还发现,I-JEPA模型可以使用更少的数据和更少的计算资源来达到很好的性能,证明了它的高效性和节约性。

以下是一些实验结果的示例

图像分类:meta在ImageNet数据集上进行了图像分类实验,该数据集包含1000个类别和140万张图像。meta使用不同数量的标注样本来训练一个线性分类器,并评估其在测试集上的准确率。meta发现,I-JEPA模型在低样本和高样本的情况下都优于其他模型。例如,当每个类别只有12个标注样本时,I-JEPA模型达到了47.1%的准确率,而其他模型的准确率都在40%以下。当每个类别有100个标注样本时,I-JEPA模型达到了72.4%的准确率,而其他模型的准确率都在70%以下。

目标检测:meta在COCO数据集上进行了目标检测实验,该数据集包含80个类别和12万张图像。meta使用一个预训练好的自监督学习模型来初始化一个目标检测器,并在COCO数据集上进行微调。meta使用平均精度 (mAP) 来评估目标检测器在测试集上的性能。meta发现,I-JEPA模型初始化的目标检测器达到了40.9%的mAP,而其他模型初始化的目标检测器的mAP都在39%以下。

实例分割:meta在COCO数据集上进行了实例分割实验,该数据集包含80个类别和12万张图像。meta使用一个预训练好的自监督学习模型来初始化一个实例分割器,并在COCO数据集上进行微调。meta使用平均精度 (mAP) 来评估实例分割器在测试集上的性能。meta发现,I-JEPA模型初始化的实例分割器达到了37.5%的mAP,而其他模型初始化的实例分割器的mAP都在36%以下。

图像检索:meta在CUB-200-2011数据集上进行了图像检索实验,该数据集包含200个鸟类类别和1.2万张图像。meta使用一个预训练好的自监督学习模型来提取图像特征,并使用余弦相似度来计算两张图像之间的相似度。meta使用平均准确率 (mAP) 来评估图像检索系统在测试集上的性能。meta发现,I-JEPA模型提取的图像特征达到了67.3%的mAP,而其他模型提取的图像特征的mAP都在65%以下。

总结

I-JEPA是一种基于类人推理的图像自监督学习模型,它可以从单张图像中学习出有用的表示,而不需要使用数据增强或多视图技术。它可以在抽象表示空间中进行预测和推理,而不是在像素空间中进行生成。它可以在多个计算机视觉任务上表现出强大的性能,并且具有很好的可扩展性和可迁移性。它可以使用更少的数据和更少的计算资源来达到很好的性能。I-JEPA模型是一个重要的里程碑,它为实现更接近人类智能的AI系统提供了一个有力的工具和一个有前景的方向。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230617A00HC900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券