像生成文字一样生成图像？Qwen VLo技术原理推测

文章来源：企鹅号 - 平凡AI

上一代Qwen的类似产品是Qwen-VL系列，就是Vision-Language，拥有看图片和文字的能力，这次的模型后面加了一个o，变成了Qwen-VLo，我猜测是output的意思，也就是VLo= Vision-Language-Output。

这一点儿很容易理解，VL只能够理解输入，而VLo是可以输出的，也就是图片输出功能。

这次的更新最大的亮点就在于这句话：

Qwen VLo 以一种渐进式生成方式，从左到右、从上到下逐步清晰地构建整幅图片。

这种方式跟现在主流的图片生成方式非常不同，比如stable diffusion，Midjourney这类型的工具，它们的生成机理是Diffusion，也就是扩散模型。

就是下面这种生成方式，模型不是从一张白纸开始，而是从一张完全被随机噪点（像老电视的雪花屏）覆盖的图片开始。

然后把所有的噪点微调一下，然后让图像从“完全混乱”到“稍微有点儿形状”最后到“成品”，这个过程会重复几十上百次，每一步都会离最终作品近一步。

而Qwen VLo的生成方式明显不同，仔细看，它是不是从左到右，从上到下，跟写作文一样的展现出来的？

换句话说，你有没有觉得这个方法跟写作文是类似的，一行行的写，最终完成一个稿子，再想一下，这个生成逻辑是不是跟ChatGPT一样的大模型非常的像，也是一行行写出来的。

你再看这个生成过程，是不是觉得更像了？

因为这俩的生成逻辑非常的像。

我们先看AI（比如ChatGPT）是怎么写一句话的。

当你让它写：“一只可爱的小猫在__”

它会先预测下一个最可能的词，比如“睡觉”。它是怎么做到的？它会回头看已经写下的“一只可爱的小猫在”，然后根据这些信息，推断出“睡觉”是合理的。接着，如果要继续写，它会看“一只可爱的小猫在睡觉”，再推断下一个词。

这个过程有几个关键特点：

顺序性：一个词一个词地往后写，不能颠倒。

依赖性：后面写的词，严重依赖于前面已经写好的所有词。

这种“回头看，再向前走一步”的机制，就叫做自回归（Auto-Regressive）。“Auto”是“自己”的意思，“Regressive”是“回归、追溯”的意思，合起来就是“（从）自己过去（的结果）来推断未来”。

而Qwen VLo用的方法大概率就是这种，在画图上其实也可以用，实际上把一张图片分割成小块，再排列一下，其实就把2维->1维，就像下面这样。

您可以想象把一张图片切成很多个小方格（比如4x4像素的图块），就像一张马赛克。

然后，模型把这些小方格按数字顺序拉成一条长队：1-2-3-4--16。

这样，画画的任务就变成了像写文章一样，按顺序“填写”这一长串的小方格。

那么在Qwen VLo创作的时候，接到指令之后，比如“生成一张可爱的柴犬”。

生成第1格：它看着指令，思考：“这幅画的左上角（第1格）应该是什么样子的？” 也许是一点蓝天背景。于是它生成了第1格。

生成第2格：现在，它回头看指令和刚刚画好的第1格，思考：“在这样的指令和左上角这块蓝天的旁边，第2格应该是什么？” 也许还是蓝天。于是它生成了第2格。

持续进行：这个过程一直持续，直到最后一个小方格（右下角）被填满。整幅图像就像一幅十字绣，一针一线、一个格子一个格子地被绣了出来。

这就是Qwen VLo“逐步清晰地构建整幅图片”的机理。它的每一步决策都基于指令和所有“历史创作”，因此逻辑性很强，细节也更可控。

换句话说，它更可控，所以我觉得在未来的视频生成中，它将会是主流。

当然这也是我的猜测，一切的技术细节要等Qwen VLo开源或者公布技术报告才能下定论。

相关快讯