首页
学习
活动
专区
圈层
工具
发布

像生成文字一样生成图像?Qwen VLo技术原理推测

上一代Qwen的类似产品是Qwen-VL系列,就是Vision-Language,拥有看图片和文字的能力,这次的模型后面加了一个o,变成了Qwen-VLo,我猜测是output的意思,也就是VLo= Vision-Language-Output。

这一点儿很容易理解,VL只能够理解输入,而VLo是可以输出的,也就是图片输出功能。

这次的更新最大的亮点就在于这句话:

Qwen VLo 以一种渐进式生成方式,从左到右、从上到下逐步清晰地构建整幅图片。

这种方式跟现在主流的图片生成方式非常不同,比如stable diffusion,Midjourney这类型的工具,它们的生成机理是Diffusion,也就是扩散模型。

就是下面这种生成方式,模型不是从一张白纸开始,而是从一张完全被随机噪点(像老电视的雪花屏)覆盖的图片开始。

然后把所有的噪点微调一下,然后让图像从“完全混乱”到“稍微有点儿形状”最后到“成品”,这个过程会重复几十上百次,每一步都会离最终作品近一步。

而Qwen VLo的生成方式明显不同,仔细看,它是不是从左到右,从上到下,跟写作文一样的展现出来的?

换句话说,你有没有觉得这个方法跟写作文是类似的,一行行的写,最终完成一个稿子,再想一下,这个生成逻辑是不是跟ChatGPT一样的大模型非常的像,也是一行行写出来的。

你再看这个生成过程,是不是觉得更像了?

因为这俩的生成逻辑非常的像。

我们先看AI(比如ChatGPT)是怎么写一句话的。

当你让它写:“一只可爱的小猫在__”

它会先预测下一个最可能的词,比如“睡觉”。它是怎么做到的?它会回头看已经写下的“一只可爱的小猫在”,然后根据这些信息,推断出“睡觉”是合理的。接着,如果要继续写,它会看“一只可爱的小猫在睡觉”,再推断下一个词。

这个过程有几个关键特点:

顺序性:一个词一个词地往后写,不能颠倒。

依赖性:后面写的词,严重依赖于前面已经写好的所有词。

这种“回头看,再向前走一步”的机制,就叫做自回归(Auto-Regressive)。“Auto”是“自己”的意思,“Regressive”是“回归、追溯”的意思,合起来就是“(从)自己过去(的结果)来推断未来”。

而Qwen VLo用的方法大概率就是这种,在画图上其实也可以用,实际上把一张图片分割成小块,再排列一下,其实就把2维->1维,就像下面这样。

您可以想象把一张图片切成很多个小方格(比如4x4像素的图块),就像一张马赛克。

然后,模型把这些小方格按数字顺序拉成一条长队:1-2-3-4--16。

这样,画画的任务就变成了像写文章一样,按顺序“填写”这一长串的小方格。

那么在Qwen VLo创作的时候,接到指令之后,比如“生成一张可爱的柴犬”。

生成第1格:它看着指令,思考:“这幅画的左上角(第1格)应该是什么样子的?” 也许是一点蓝天背景。于是它生成了第1格。

生成第2格:现在,它回头看指令刚刚画好的第1格,思考:“在这样的指令和左上角这块蓝天的旁边,第2格应该是什么?” 也许还是蓝天。于是它生成了第2格。

持续进行:这个过程一直持续,直到最后一个小方格(右下角)被填满。整幅图像就像一幅十字绣,一针一线、一个格子一个格子地被绣了出来。

这就是Qwen VLo“逐步清晰地构建整幅图片”的机理。它的每一步决策都基于指令和所有“历史创作”,因此逻辑性很强,细节也更可控。

换句话说,它更可控,所以我觉得在未来的视频生成中,它将会是主流。

当然这也是我的猜测,一切的技术细节要等Qwen VLo开源或者公布技术报告才能下定论。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ODZOyzpXMBnyPPfQXLoJB5jg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券