Step1X-Edit: 开源版的AI图像编辑新王者,"GPT-4o级"的优秀品质
重大突破:开源世界也有"GPT-4o级"的图像编辑器了!
在AI图像编辑领域,长期以来都是GPT-4o和Gemini 2 Flash等闭源模型占据着统治地位。但现在,情况正在发生改变——Step1X-Edit的横空出世,让开源社区终于有了能与这些巨头一较高下的利器!
最新动态
2025年4月27日:社区贡献者发布了Step1X-Edit-FP8优化版模型,降低了显存需求
2025年4月26日:在线演示平台正式上线,现在任何人都可以直接体验图像编辑功能
2025年4月25日:项目核心代码、模型权重和评估基准GEdit-Bench全部开源
它是如何工作的?
Step1X-Edit采用了多模态大语言模型(Multimodal LLM)技术,能够同时处理参考图像和用户编辑指令。系统会提取出潜在嵌入(latent embedding),并将其与扩散图像解码器(diffusion image decoder)集成,从而生成目标图像。简单来说,就是:
输入你的原始图像
用自然语言告诉它你想做什么改动
模型理解你的意图并生成符合要求的新图像
实际表现如何?
根据在新发布的GEdit-Bench基准测试中的表现,Step1X-Edit不仅大幅超越了现有的开源基线模型,而且已经接近领先的专有模型的性能水平。这是开源图像编辑领域的一个重大里程碑!
硬件需求与性能
测试环境:单块H800 GPU 推荐配置:80GB显存GPU,以获得更好的生成质量和效率
如何上手使用?
基本环境要求
Python >= 3.10.0
PyTorch >= 2.2(带CUDA支持)
已在torch==2.3.1和torch==2.5.1 + CUDA 12.1环境下测试通过
安装步骤
安装基础依赖:
pip install -r requirements.txt
安装flash-attn加速库:
python scripts/get_flash_attn.py
该脚本会生成一个类似flash_attn-2.7.2.post1+cu12torch2.5cxx11abiFALSE-cp310-cp310-linux_x86_64.whl的文件名,你可以在flash-attn的发布页面找到对应的预构建轮子并按照其说明进行安装。
运行示例:
bash scripts/run_examples.sh
内存优化选项
如果你的GPU显存有限,可以:
使用FP8量化版本(添加--quantized标志)
启用CPU卸载(添加--offload标志)
社区贡献
社区已经提供了多个有价值的贡献,包括:
FP8模型权重:由meimeilook和rkfg提供
开源计划
[x] 推理代码和模型权重
[x] 在线演示(Gradio)
[x] FP8量化权重
[ ] Diffusers集成
[ ] ComfyUI支持
GEdit-Bench:更接近真实使用场景的测试基准
Step1X-Edit团队还发布了GEdit-Bench,这是一个基于真实用户指令的新型基准测试集。它精心策划了各种编辑场景,能够更真实、更全面地评估图像编辑模型的性能。评估过程和相关代码可在GEdit-Bench/EVAL.md中找到。
更多信息
详细技术报告:arXiv:2504.17761
模型权重:ModelScope 和 HuggingFace
FP8版本:meimeilook/Step1X-Edit-FP8 和 rkfg/Step1X-Edit-FP8
免责声明
该图像编辑模型产生的结果完全由用户输入和操作决定。开发团队和该开源项目不对使用过程中产生的任何结果或后果负责。
Step1X-Edit遵循Apache License 2.0许可协议。你可以在各自的GitHub和HuggingFace仓库中找到许可证文件。
AI写作编辑排版工具:智辑AI(aieditorx.cn)
AI电影共创社:简称AI共创社或共创社,国内著名的公益AI影视社群,社群超万人,有多名国内著名导演、编剧、影视领域教授专家学者,有500多名AIGC高手专家。AI电影共创社是公益社群,立足中国优秀文化哲学,传递人类命运共同体意识,给世界带来和平。欢迎您加入,一起共学共创推动中国AI影视。
官网学习文档:
https://aimoviecs.com
投稿邮箱:1351231599@qq.com,欢迎AI影视领域博主、作家、爱好者送稿,审核通过即可发布。
加入社群:将在全国各地推动公益AI影视的影响力,帮助AI影视爱好者入门,进步,提升。
领取专属 10元无门槛券
私享最新 技术干货