

关键创新
Meta宣布了视觉AI的下一次重大更新,推出了SAM 3和SAM 3D,推动其“Segment Anything”项目进入新世代。
SAM 3通过大幅提升其在图像和视频中利用自然语言提示检测、分割和编辑对象的能力,提升了二维理解。
SAM 3D更进一步,将平面图像转换为完全重建的3D版本,并分为两个独立型号:SAM 3D对象和SAM 3D实体。

Meta一直是图像分割行业的重要品牌之一。为了让你了解情况,这家AI巨头早在2023年就推出了首个Segment Anything模型(SAM)。该模型帮助用户只需几次点击就能从图像中剪出物体。
Meta现在又推出了全新的SAM 3和SAM 3D模型,今天发布了新款。在公告中,公司提到这些新模型可以升级AI在照片、视频甚至3D空间中的表现。
SAM3-2D图像理解与编辑
SAM 3模型在原版SAM模型的基础上建立了所有功能。但这款模型承诺了更高的准确性和灵活性。新模型能够检测、分离和跟踪照片和视频中的单个物体,而且比之前的版本更为精确。然而,最大的改进是SAM 3在图像中特定物体的自然语言配合度。

举个例子,假设你可以上传任何照片,并命令SAM 3模型“把蓝色衬衫换成红色衬衫”。模特随后就能判断你到底指的是哪件衬衫。为了让结果更精准,你甚至可以给出更长且详细的提示,比如“选择坐着时不戴红帽子的人”。Meta说SAM 3适合更长的提示和更有创意的任务。

Meta已经在自家一些应用中使用了SAM 3。在其AI视频工具SAM 3 Meta 1Meta 正在尝试使用 SAM 3 来帮助创造新的视觉效果。公司还计划在类似TikTok的短视频平台Vibes中使用该模型,为创作者打造更好的编辑和对象追踪工具。
SAM3D-3D对象转化与生成
SAM 3D的神奇能力是 将平面图像从一张照片中转化为细致、逼真的 3D 模型。

与SAM 3提升二维理解不同,SAM 3D则专注于将平面图像转化为完整的三维重建。简单来说,模型可以查看一张图片,生成图像中的物体、动物甚至人物,作为详细的3D模型。更不用说,这种模型在机器人、VR/AR、游戏和数字设计行业中拥有巨大潜力。


值得注意的是,SAM 3D有两个不同的模型。第一个是SAM 3D物体,旨在重建日常物品。你可以想象家具、工具、小玩意儿的3D模型,甚至完整的室内场景。即使你输入了一张图片,它也能很好地预测深度、形状和结构,从而输出出合适的三维设计。第二种模型SAM 3D身体,专门训练用于重建人体。它能仅凭一张照片估算一个人的体型、姿势和比例,生成完整的3D模型。

也就是说,你可以给它一张随意的自拍或随机图片,它仍然会尝试输出一个完整的3D重建,这适用于动画、动作分析、头像创建以及其他数字应用。别忘了,SAM 3D还允许你调整摄像机角度或改变整个场景的视角。
使用与观点
就可用性而言,SAM 3和SAM 3D都可以在Meta新推出的Segment Anything Playground中使用,这是一款任何人都可以尝试的简单网页工具。
SAM3与SAM3D的推出将会深刻改变图像编辑与3D建模行业的,在数字娱乐、视频生成、图像编辑等方面带来革命性的突破。
官方文档主页:
https://ai.meta.com/blog/segment-anything-model-3/解锁生成式AI发展历史与各种技术,参加我们的主题分享
《多模态与生成式人工智能技术演化》