即将诞生的新职业？直接用文本也可以多次编辑生成图像！

mixlab

发布于 2022-11-07 19:42:00

1.3K0

文章被收录于专栏：MixLab科技+设计实验室MixLab科技+设计实验室

‍

‍上期介绍了 AI 生成内容的神器 playgroundai ，不仅支持用户0学习成本创作图像，也提供了简易上传底图蒙版，指定AI生成区域的功能。

Mixlab

小杜

近期谷歌研究与特拉维夫大学推出一种使用 “Cross-Attention Control” 方法，支持用文本多次编辑 “由文本生成的图像” 的新模型。

从文本生成图像，再利用文本进一步编辑修改生成图，可以预见下一代设计软件将会让设计的门槛极大的降低，全民设计师可能不再仅仅是一句口号了～

本文作者追求一种直观的 “提示对提示” prompt-to-prompt 的编辑框架，其中图像编辑仅由文本控制。大规模语言图像模型例如Stable Diffusion 通常很难仅通过单独编辑提示来控制，并且对于用户来说可能非常不可预测和不直观。大多数的现有方法需要用户输入一个底图，如果底图的形状或者画面布局不合适，则可能不会产生符合预期的结果。

交叉注意力控制 Cross-Attention Control 通过在算法运行过程中修改扩散模型的内部注意力图，来允许我们对提示语到生成图像的过程中进行更精细的控制。整个过程无需用户输入底图，并且无需额外扩展模型或者设计手段的微调。

小杜

作者的方法使我们能够仅编辑文本提示来把控图像生成制作的过程，为基于文本输出操作的图片编辑应用程序开发铺平了道路。

作者也提供了不少功能应用的demo，例如通过替换单词进行局部编辑，通过添加规范进行全局编辑，或者控制其中一个词反映在图像的指定范围中。

带我们看下直观的效果？

Mixlab

小杜

本文展示了由文本控制生成图像的4种功能效果-

1.文本主体替换

2.文本主体修改变化

3.风格替换

4.风格权重修改