前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【源头活水】在图像生成领域,自回归可以打败扩散模型吗?

【源头活水】在图像生成领域,自回归可以打败扩散模型吗?

作者头像
马上科普尚尚
发布2024-07-05 13:15:00
550
发布2024-07-05 13:15:00
举报

图像生成领域,有这么几种方法,Flow-Based、GAN-Based、VAE+Pixel-CNN系列、扩散模型自回归。更早期的是基于自编码器的图像生成,各种Auto-Encoder模型,以及影响很大的变分自编码器d-VAE。后面又有Flow-Based,不过似乎Flow-Based引起的注意不是那么大。然后是名噪一时的GAN。2020年之后,扩散模型逐渐火热,一直到现在慢慢扩展到视频生成、3D生成、目标检测和语义分割等领域。

与此同时,自回归模型作为语言模型里面的杠把子,也引起了大家的关注,早期的Pixel-CNN也算是自回归图像生成的一种,然后过渡到自编码器+自回归,比如VQ-VAE+Pixel-CNN,然后是CVPR 2021 Oral工作VQ-GAN横空出世,VQ-VAE结合自回归Transformer作为先验替代Pixel_CNN。不过同期扩散模型的发展似乎更为火热一些,提出VQ-GAN的团队也在CVPR 2022提出了日后红极一时的Stable Diffusion系列,可以看作是结合VQ-GAN和扩散模型的工作(当然自回归Transformer需要隐藏一下)。

更早之前,OpenAI提出了Diffusion Models Beat GANs on Image Synthesis(https://arxiv.org/abs/2105.05233),指出在图像生成领域扩散模型可以打败GAN,之后图像生成领域的流行范式变成了扩散模型(这样说不太准确,其实更早之前,GAN的研究热度也已经慢慢降下来了,DDPM和DDIM之后扩散模型的研究也已经慢慢火热了)。两三年时间,图像生成的扩散模型的研究也逐渐丰满,结合LLM的工作、快速采样生成图片的工作、结合ViT的工作(Diffusion Image Transformer,DiT)也慢慢浮出水面,大家的研究热点也慢慢的走向扩散模型在视频生成领域的应用,虽然可以借鉴之前图像生成的一些经验,遇到的挑战也是更大的。

这个时候其实也是需要思考图像生成中,自回归模型的地位,毕竟之前也有很多优秀的工作,比如OpenAI的iGPT,Meta的MasktGIT。前面也提到过字节也提出了预测下一个level 图像token的自回归图像生成模型 VAR,今天要介绍的也是字节和港大提出的一个工作,其名字也是和Diffusion Models Beat GANs on Image Synthesis有异曲同工之妙,Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。

https://arxiv.org/pdf/2406.06525 https://github.com/FoundationVision/LlamaGen

文中提到的自回归图像生成模型LlamaGen,模型结构和VQ-GAN是类似的,不过把学习先验的自回归Transformer换成了参数量更大的Llama模型,实现细节也借鉴了VQ-GAN和ViT-VQ-GAN的做法,比如Codebook用更大的Vocabulary,在特征向量量化之前对特征向量进行降维和 L2-norm,损失函数也加入了perceptual loss和PatchGan的对抗学习的损失。

Llama的结构中,基于RMSNorm实现pre-normalization,SwiGLU激活函数和旋转位置编码,也没有使用AdaLN。

文中也提到了一个现象,就是把Codebook的Vocabulary变大之后,想过会更好,当然embedding的usage会下降。但是把Vocabulary的embedding向量的维度降低,也会让embedding的usage提高。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档