有损压缩绕过了稳定扩散的文本到图像部分,得到了有趣的结果。
上图:这些锯齿状、彩色的块正是图像压缩概念的样子。
上周,瑞士软件工程师马蒂亚斯·伯尔曼(Matthias Bühlmann)发现,与JPEG或WebP相比,流行的图像合成模型稳定扩散(Stable Diffusion)可以在高压缩比下压缩现有的位图图像,而产生的视觉假象更少,但有一些重要的警告。
稳定扩散是一种人工智能图像合成模型,通常基于文本描述(称为“提示”)生成图像。人工智能模型通过研究从互联网上提取的数百万张图像来学习这种能力。在训练过程中,模型在图像和相关单词之间进行统计关联,对每个图像的关键信息进行更小的表示,并将它们存储为“权重”,也就是说,“权重”是代表 AI 图像模型所知道的内容的数学值。
当“稳定扩散”分析并将图像“压缩”成权重形式时,它们驻留在研究人员所说的“潜在空间”中,这是一种说法,即它们作为一种模糊电位存在,一旦解码,就可以实现到图像中。在稳定扩散(Stable Diffusion)1.4版中,权重文件大约是4GB,但它代表了关于数亿张图像的知识。
上图:使用稳定扩散压缩图像的示例。
当大多数人使用带有文本提示的稳定扩散(Stable Diffusion)时,软件工程师伯尔曼去掉了文本编码器,而是强制他的图像通过 Stable Diffusion 的图像编码器处理,它将低精度的 512×512 图像转换为更高精度的 64×64 潜在空间表示。此时,图像的数据大小比原始图像小得多,但仍然可以将其展开(解码)为 512×512 图像,并获得相当好的结果。
在运行测试时,伯尔曼发现使用稳定扩散压缩的新图像,主观上比JPEG或WebP在更高的压缩比(更小的文件大小)下看起来更好。在一个例子中,他展示了一张美洲驼的照片(最初是768KB),使用JPEG压缩到5.68KB,使用WebP压缩到5.71KB,使用稳定扩散压缩到4.98KB。与其他格式的压缩图像相比,稳定扩散图像具有更多的解析细节,和更少的明显压缩伪影。
上图:使用稳定扩散压缩图像的实验示例。 SD 结果在最右边。
然而,伯尔曼的方法目前有很大的局限性:它不能很好地处理人脸或文本,在某些情况下,它实际上会在解码图像中产生源图像中不存在的详细特征。(你可能不希望映像压缩器在映像中虚构不存在的细节。)此外,解码还需要4GB的稳定扩散权重文件和额外的解码时间。
虽然,这种使用稳定扩散的方法是非常规的,更多的是一个有趣的 hack,而不是一个实际的解决方案,但它可能指向一个新的未来图像合成模型的使用。伯尔曼的代码可以在谷歌 Colab 上找到,你可以在他的文章中找到更多关于他的实验的技术细节。
如果朋友们喜欢,敬请关注“知新了了”!
领取专属 10元无门槛券
私享最新 技术干货