苹果AI领域新动作！公布开源图片编辑AI：mgie

文章来源：企鹅号 - AI变革指南

苹果公司，一直以来都是科技界的领导者和创新者。近日，苹果公司又宣布开源了一项名为 MGIE（Multimodal Guidance for Image Editing）的AI新技术。它基于多模态大型语言模型，实现通过文本来编辑图像的方式！

什么是 MGIE？

传统的图像编辑通常依赖于复杂的图形界面和精确的手动操作，而 MGIE 则通过自然语言处理（NLP）技术，使得用户可以通过简单的文字指令来指导图像编辑过程。

这意味着，用户可以像与智能助手对话一样，告诉 MGIE 他们想要的编辑效果，比如“让天空更蓝”或“增加一些阳光”，MGIE 便能理解并执行这些指令。

MGIE 的核心优势在于其多模态特性，它不仅能够理解文本指令，还能结合图像内容进行智能分析，从而实现更加精准和自然的编辑效果。这种技术的应用范围非常广泛，从日常的社交媒体照片编辑到专业的图像设计工作，MGIE 都能够提供强大的支持。

下面是官方的效果，官方也有在线体验网址，在文末。

MGIE 是如何工作的？

MGIE 的核心是一个多模态大型语言模型（MLLM），它能够同时处理文本和图像的信息，并在两者之间建立联系。MLLM 由两个子模型组成，一个是文本生成模型，另一个是图像编辑模型。

文本生成模型的作用是根据用户的输入，生成一系列的图像编辑指令，比如“将红色跑车修改成蓝色”或“在图片右上角添加一个月亮”。

这些指令不仅包含了用户想要的效果，还包含了一些细节，比如颜色、位置、大小等。文本生成模型的训练数据来自于一个大规模的图像-文本对齐数据集，其中每张图像都有一个或多个对应的文本指令。

图像编辑模型的作用是根据文本生成模型的输出，对图像进行相应的修改。图像编辑模型采用了一个编码-解码的结构，首先将图像编码成一个特征向量。

然后根据文本指令对特征向量进行修改，最后将修改后的特征向量解码成新的图像。图像编辑模型的训练数据来自于一个大规模的图像-图像对齐数据集，其中每张图像都有一个或多个对应的修改后的图像。

MGIE的特点

基于多模态大型语言模型，实现了端到端的图像编辑流程。MGIE-Net 能够同时学习文本指令的语义和图像编辑的操作，从而实现更加自然和准确的图像编辑效果。

支持多种类型的图像编辑任务，包括颜色调整、物体移动、物体添加、物体删除、风格转换等。MGIE 项目能够根据用户的指令，自动识别图像编辑任务的类型，并执行相应的操作，从而实现多样化的图像编辑功能。

具有强大的视觉想象力和创造力，能够生成高质量和逼真的图像。MGIE 项目不仅能够执行用户的指令，还能够根据指令的语义，生成高质量和逼真的图像。例如，用户可以通过指令，如“添加一只独角兽”或“添加一座金字塔”，来生成一些不存在于现实中的物体或场景。

体验地址：

https://huggingface.co/spaces/tsujuifu/ml-mgie

项目地址：

https://mllm-ie.github.io/

代码地址：

https://github.com/tsujuifu/pytorch_mgie

论文地址：

https://openreview.net/pdf?id=S1RKWSyZ2Y

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货