作者:Dewei Zhou等
解读:AI生成未来

论文链接: https://arxiv.org/abs/2604.06870 项目主页: https://limuloo.github.io/RefineAnything/ 代码仓库: https://github.com/limuloo/RefineAnything 在线体验:https://huggingface.co/spaces/limuloo1999/RefineAnything
输入:

参考图:

prompt: "Refine the LOGO"
输出:

输入:

prompt: "refine the text '鼎好商城'"
输出:

【导语】 AI生图技术日新月异,但"局部细节崩坏"始终是落地应用的痛点——文字扭曲、Logo变形、手指畸变、细小结构断裂,这些问题在电商海报、广告设计、UI素材等高精度场景中尤为致命。现有的编辑模型大多聚焦于粗粒度的语义编辑,难以在不破坏背景的前提下精修局部细节。为此,研究团队提出了 RefineAnything——首个专注于区域级图像精修的多模态扩散框架。只需用户指定一个区域(涂鸦或框选),即可恢复区域内的精细细节,同时严格保证区域外的每一个像素不变,支持有参考图和无参考图两种模式。。
现代图像生成模型在整体构图和语义上已经表现优秀,但在局部精细细节上仍频繁"翻车":
RefineAnything 正是为了同时解决这三大难题而设计——区域精准、细节有效、背景不变。

RefineAnything 构建于 Qwen-Image 架构之上,由三个核心组件组成:
这一架构统一支持有参考图(如根据原始Logo参考修复变形Logo)和无参考图(如仅凭文字指令"修复人脸")两种使用场景。

这是 RefineAnything 的核心创新之一,源于一个反直觉的关键发现:
在固定输入分辨率下,将目标区域裁剪出来并上采样到全图分辨率后再送入 VAE,虽然没有引入任何新信息,但区域内的重建质量却显著优于直接对全图编码。
这说明制约局部精修质量的瓶颈并非信息量不足,而是模型的固定分辨率资源是否被分配到了正确的位置。基于此,团队提出了三步式的 Focus-and-Refine 策略:
为进一步消除回贴边界处的接缝伪影,团队设计了一种边界感知的训练损失:在编辑区域边界附近的窄带区域内增强监督权重,促使模型在训练阶段就学会生成与周围上下文自然融合的结果,显著改善了回贴的自然度。
团队构建了包含 30K 样本的专用训练集:
团队同时构建了专用的评测基准 RefineEval,涵盖 67 个案例、402 张退化输入,分别评估有参考和无参考两种设定下的编辑区域保真度和背景一致性。
方法 | MSE↓ | LPIPS↓ | DINO↑ | CLIP↑ | SSIM↑ | MSE_bg↓ | LPIPS_bg↓ | SSIM_bg↑ |
|---|---|---|---|---|---|---|---|---|
GPT-4o | 0.083 | 0.370 | 0.620 | 0.801 | 0.302 | 0.815 | 0.309 | 0.6001 |
Gemini3-Pro | 0.031 | 0.178 | 0.771 | 0.855 | 0.510 | 0.029 | 0.052 | 0.9061 |
BAGEL | 0.045 | 0.253 | 0.682 | 0.803 | 0.494 | 0.033 | 0.046 | 0.9360 |
Kontext | 0.040 | 0.264 | 0.685 | 0.785 | 0.538 | 0.011 | 0.019 | 0.9660 |
Qwen-Edit | 0.049 | 0.287 | 0.675 | 0.807 | 0.436 | 0.454 | 0.148 | 0.7530 |
Ours | 0.020 | 0.155 | 0.793 | 0.885 | 0.591 | 0.000 | 0.000 | 0.9997 |
RefineAnything 在所有指标上全面领先:相比最强开源基线 Kontext,MSE 降低 **50%**,LPIPS 降低 **41%**,DINO/CLIP 相似度分别提升 +0.108/+0.100。更值得注意的是,背景保持指标接近完美(MSE_bg=0.000, SSIM_bg=0.9997),从根本上消除了背景漂移问题。
方法 | 视觉质量↑ | 自然度↑ | 美学↑ | 细节↑ | 指令忠实度↑ |
|---|---|---|---|---|---|
Qwen-Edit | 3.081 | 3.110 | 3.105 | 2.975 | 3.214 |
BAGEL | 3.018 | 3.000 | 2.959 | 2.851 | 3.135 |
Ours | 3.806 | 3.868 | 3.876 | 3.720 | 3.644 |
在无参考图设定下,RefineAnything 在全部五个维度上均排名第一,相比最强基线 Qwen-Edit 全面提升 +0.4~0.8 分。
两个核心组件协同工作,才能实现高质量的局部精修与无缝融合。
RefineAnything 首次将区域级图像精修作为专门的问题设定进行研究,提出了完整的解决方案:
该框架在保证背景像素级不变的前提下,实现了文字、Logo、人脸、手部等精细细节的高质量恢复,为 AI 生图在商业级高精度场景中的落地扫清了"最后一公里"障碍。
【结语】RefineAnything 以其"聚焦裁剪—精修—无缝回贴"的优雅设计,为 AI 图像生成领域的局部细节修复问题提供了首个系统性的解决方案。从电商产品图到广告设计,从 UI 素材到社交媒体内容,这一工作为需要"像素级精准"的实际应用场景带来了切实可行的技术支撑。
[1] RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details