首页
学习
活动
专区
工具
TVP
发布

苹果开源 MGIE:用 iPhone 随意拍照并用语言进行编辑

引言:

苹果公司,宣布开源了一项名为MGIE(Multimodal Guidance for Image Editing)的新技术。它基于多模态大型语言模型,实现了一种全新的图像编辑方式。

传统的图像编辑通常依赖于复杂的图形界面和精确的手动操作,而MGIE则通过自然语言处理(NLP)技术,使得用户可以通过简单的文字指令来指导图像编辑过程。这意味着,用户可以像与智能助手对话一样,告诉MGIE他们想要的编辑效果,比如“让天空更蓝”或“增加一些阳光”,MGIE便能理解并执行这些指令。

MGIE的核心优势在于其多模态特性,它不仅能够理解文本指令,还能结合图像内容进行智能分析,从而实现更加精准和自然的编辑效果。这种技术的应用范围非常广泛,从日常的社交媒体照片编辑到专业的图像设计工作,MGIE都能够提供强大的支持。

开源地址:

https://github.com/apple/ml-mgie

Demo地址:

https://github.com/tsujuifu/pytorch_mgie

Demo使用:

1.登录https://github.com/tsujuifu/pytorch_mgie

点击“Demo”

2.在弹出的窗口中上传图片,输入修改提示词。

3.将红色跑车修改成蓝色,点击运行。等等效果

速度很快,本地部署可以往下看,注意我并没有进行安装。

如果你要构建请确保你安装了conda和git,并且系统支持CUDA。

本地构建安装步骤:

创建conda环境:

conda create -n mgie python=3.10 -y

激活环境:

conda activate mgie

更新conda和安装基础工具:

conda update -n base -c defaults conda setuptools -y

conda install -c conda-forge git git-lfs ffmpeg vim htop ninja gpustat -y

清理conda环境:

conda clean -a -y

安装Python包:

pip install -U pip cmake cython==0.29.36 pydantic==1.10 numpy

pip install -U gdown pydrive2 wget jupyter jupyterlab jupyterthemes ipython

pip install -U sentencepiece transformers diffusers tokenizers datasets gradio==3.37 accelerate

安装CLIP:

pip install -U git+https://github.com/openai/CLIP.git

安装PyTorch和相关库:

pip install -U https://download.pytorch.org/whl/cu113/torch-1.12.0%2Bcu113-cp310-cp310-linux_x86_64.whl https://download.pytorch.org/whl/cu113/torchvision-0.13.0%2Bcu113-cp310-cp310-linux_x86_64.whl https://download.pytorch.org/whl/cu113/torchaudio-0.12.0%2Bcu113-cp310-cp310-linux_x86_64.whl

pip install -U deepspeed

克隆MGIE仓库:从GitHub克隆MGIE项目仓库。

git clone https://github.com/apple/ml_mgie.git

安装项目依赖:进入克隆的仓库目录,并根据项目的README文件安装任何特定的依赖。

cdml_mgiepipinstall -e .

下载预训练模型:如果项目需要预训练模型,确保你已经下载了这些模型并放置在正确的位置。

使用MGIE:

1.运行示例:

在Jupyter Notebook中运行项目的示例。通常,项目会提供一个名为demo.ipynb的Notebook,你可以在Jupyter Notebook界面中找到并运行它。

jupyter notebook

在Notebook中,按照单元格中的指示执行代码,查看MGIE的图像编辑功能。

2.训练模型:

如果需要,你可以使用项目提供的脚本来训练自己的模型。这通常涉及到运行训练脚本,并可能需要指定模型路径、数据集路径等参数。

pythontrain.py--args_for_training

3.进行图像编辑:

使用训练好的模型进行图像编辑。这可能涉及到运行推理脚本,或者在Notebook中使用模型进行编辑。

python inference.py --model_path /path/to/your/model --other_args

请确保你已经阅读并遵循了MGIE项目的官方文档,因为具体的安装和使用步骤可能会根据项目的更新而变化。

结语:

苹果公司开源MGIE,为用户提供了前所未有的创作自由。通过结合多模态大型语言模型,MGIE能够理解并执行自然语言指令,使得图像编辑变得更加直观和便捷。

特别值得一提的是,MGIE的开源为iPhone用户带来了新的可能。想象一下,你只需对着手机说出你想要的编辑效果,无论是调整光线、改变背景,还是添加艺术效果,MGIE都能够理解并实现这些指令,让你的照片瞬间焕发新生。这不仅提升了用户的体验,也为移动摄影和社交媒体分享带来了新的乐趣。

随着技术的不断进步,MGIE有望成为iPhone用户手中的又一强大创作伙伴,让创意无限,让生活更加多彩。

完over。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ob6u15td23Z4AiqGT_tpSsdA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券