首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

阶跃星辰开源“AI版PS”-Step1X-Edit,媲美GPT-4o

作者|沐风

来源|AI先锋官

前两天,OpenAI刚刚开源了AI生图模型GPT-image-1,紧接着,阶跃星辰就上线并开源了与GPT-4o和Gemini2 Flash等闭源模型相当的的图像编辑模型Step1X-Edit。

你可以用它新增、删除图片中的目标,换句话说,它其实就是“开源AI版Adobe Photoshop”

并且,阶跃星辰将Step1X-Edit的论文、模型、代码、评测数据集一次性全部放出来来了。

现在登录阶跃AI官网(stepfun.com)或App即可使用。

在针对自然语言图像编辑任务,Step1X-Edit具备以下核心能力:

语义精准解析:支持自然语言描述的复杂组合指令,指令无需模板,能够灵活应对多轮、多任务编辑需求,同时支持对图像中文字进行识别、替换与重构;

身份一致性保持:编辑后能稳定保留人脸、姿态与身份特征;

高精度区域级控制:支持对指定区域进行文字、材质、色彩等定向编辑,保持图像风格统一。

据介绍,Step1X-Edit首次在开源体系中实现MLLM与DiT的深度融合。

MLLM 模块负责处理自然语言指令与图像内容,具备多模态语义理解能力,可将复杂编辑需求解析为latent控制信号;

Diffusion模块再根据MLLM生成的latent信号完成图像的重构或局部修改,确保图像细节保真与风格统一。

这一结构使得模型在编辑精度与图像保真度上实现大幅提升,换句话说就是“听得懂、改得准、保得住”。

为了训练模型,阶跃星辰构建了一个高质量的数据集,共生成2000万条图文指令三元组,最终保留样本超过100万条。

数据覆盖11类高频图像编辑任务类型,包括文字替换、风格迁移、材质变换、人物修图等需求。

另外,阶跃星辰还开发了一个植根于真实世界用户指令的新型基准测试GEdit-Bench。

基于该基准,在语义一致性、图像质量与综合得分三项指标上,评测了包括开源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)和闭源模型(GPT-4o、豆包、Gemini 2.0 Flash)。

针对闭源模型(如GPT-4o)因安全策略拒绝部分指令的情况,报告分为两类测试结果,分别为:

交集子集:所有模型均成功返回结果的样本

全集:基准中所有样本(仅统计模型成功生成的案例)。

测试结果表明,Step1X-Edit在11个评估维度上全面超越开源模型,比肩GPT-4o、豆包和Gemini 2.0 Flash。

同时,为全面测试多语言能力,每个样本均配对了中英文指令:

在中文指令测试集(GEdit-Bench-CN)中,Step1X-Edit表现稳定,部分指标超越Gemini 2.0 Flash和豆包。

官方也放出了Step1X-Edit与多个的模型(豆包、Gemini、GPT-4o)在相同输入下的图像编辑效果。

可以发现:Step1X-Edit的图像编辑效果更好,生成的图像更自然一些。

当然,小编还是更倾向与实际体验,所以这就让它来改几张图试试。

左为原图,右为Step1X-Edit修改图

提示词:给小姐姐脖子上增加一条适合她的项链

提示词:去除图片中人物脖子上的项链

提示词:将图片中的小熊形状的月饼更换为小兔子形状

提示词:将图片里的场景改为“草原”

提示词:将头发从自然披散改为马尾辫

提示词:将图片改为像素风格

提示词:将图片中的小男孩改为女孩,头发自然披散至肩部,吉卜力风格

整体看起来相当不错。

不过,小编建议,在修改图片时将你的需求尽量写详细,不然的话......如下。

提示词:将图片中的小男孩改为女孩

.END.

往期文章回顾

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O9Ybrz2b6OIvF-PyYiX0Cg0Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券