首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

苹果AI领域新动作!公布开源图片编辑AI:mgie

苹果公司,一直以来都是科技界的领导者和创新者。近日,苹果公司又宣布开源了一项名为 MGIE(Multimodal Guidance for Image Editing)的AI新技术。它基于多模态大型语言模型,实现通过文本来编辑图像的方式!

什么是 MGIE?

传统的图像编辑通常依赖于复杂的图形界面和精确的手动操作,而 MGIE 则通过自然语言处理(NLP)技术,使得用户可以通过简单的文字指令来指导图像编辑过程。

这意味着,用户可以像与智能助手对话一样,告诉 MGIE 他们想要的编辑效果,比如“让天空更蓝”或“增加一些阳光”,MGIE 便能理解并执行这些指令。

MGIE 的核心优势在于其多模态特性,它不仅能够理解文本指令,还能结合图像内容进行智能分析,从而实现更加精准和自然的编辑效果。这种技术的应用范围非常广泛,从日常的社交媒体照片编辑到专业的图像设计工作,MGIE 都能够提供强大的支持。

下面是官方的效果,官方也有在线体验网址,在文末。

MGIE 是如何工作的?

MGIE 的核心是一个多模态大型语言模型(MLLM),它能够同时处理文本和图像的信息,并在两者之间建立联系。MLLM 由两个子模型组成,一个是文本生成模型,另一个是图像编辑模型

文本生成模型的作用是根据用户的输入,生成一系列的图像编辑指令,比如“将红色跑车修改成蓝色”或“在图片右上角添加一个月亮”。

这些指令不仅包含了用户想要的效果,还包含了一些细节,比如颜色、位置、大小等。文本生成模型的训练数据来自于一个大规模的图像-文本对齐数据集,其中每张图像都有一个或多个对应的文本指令。

图像编辑模型的作用是根据文本生成模型的输出,对图像进行相应的修改。图像编辑模型采用了一个编码-解码的结构,首先将图像编码成一个特征向量。

然后根据文本指令对特征向量进行修改,最后将修改后的特征向量解码成新的图像。图像编辑模型的训练数据来自于一个大规模的图像-图像对齐数据集,其中每张图像都有一个或多个对应的修改后的图像。

MGIE的特点

基于多模态大型语言模型,实现了端到端的图像编辑流程。MGIE-Net 能够同时学习文本指令的语义和图像编辑的操作,从而实现更加自然和准确的图像编辑效果。

支持多种类型的图像编辑任务,包括颜色调整、物体移动、物体添加、物体删除、风格转换等。MGIE 项目能够根据用户的指令,自动识别图像编辑任务的类型,并执行相应的操作,从而实现多样化的图像编辑功能。

具有强大的视觉想象力和创造力,能够生成高质量和逼真的图像。MGIE 项目不仅能够执行用户的指令,还能够根据指令的语义,生成高质量和逼真的图像。例如,用户可以通过指令,如“添加一只独角兽”或“添加一座金字塔”,来生成一些不存在于现实中的物体或场景。

体验地址:

https://huggingface.co/spaces/tsujuifu/ml-mgie

项目地址:

https://mllm-ie.github.io/

代码地址:

https://github.com/tsujuifu/pytorch_mgie

论文地址:

https://openreview.net/pdf?id=S1RKWSyZ2Y

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OBfrcC8wC2PA6yfTHxsCzldQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券