首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sora建立在基于transformer 的DIT模型上

Sora建立在DiT模型上(Scalable Diffusion Models with Transformers, ICCV 2023)

"Scalable Diffusion Models with Transformers" 是一篇由 William Peebles 撰写的研究论文,其中提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。这种方法结合了扩散模型和 Transformer 的优点,实现了可扩展的高质量图像生成。

Transformer 是一种注意力机制的神经网络架构,最初被用于自然语言处理任务,如机器翻译和文本摘要。Transformer 的关键特点是其自注意力机制,它可以捕捉输入序列中不同位置之间的关系,后期也成功把transformer 的注意力机制应用到计算机视觉任务中。

在本论文中,作者提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。该模型通过将扩散过程分解为多个阶段,每个阶段都由一个 Transformer 来计算注意力机制。从而实现了可扩展的高质量图像生成。具体来说,该模型包括以下几个部分:

噪声分布:模型从一个简单的随机噪声分布开始,该噪声分布可以是高斯分布或均匀分布等。

扩散过程:模型通过一系列的扩散步骤将噪声分布逐步转化为目标数据分布。每一步都通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测下一个状态。

采样过程:模型通过反向的扩散过程从噪声分布生成新的样本。该过程通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测上一个状态。

损失函数:模型使用一个对数似然损失函数来训练,该损失函数用于最大化生成样本的对数似然。

该模型的主要功能是生成高质量的图像。通过结合扩散模型和 Transformer 的优点,该模型可以生成具有复杂结构和细节的图像,同时保持生成过程的可扩展性和稳定性。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O-DYMmm_W7OgPoE0Y6Be8JBg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券