首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sora使用了vision Transformer 提出来的Patch embedding 操作

Sora大模型使用到了vision Transformer 提出来的Patch embedding 操作。

Vision Transformer(ViT)是一种基于Transformer架构的视觉模型,用于处理图像分类任务。传统的卷积神经网络(CNN)在图像分类任务中表现出色,但是ViT提出了一种全新的思路,将图像分割成小块(patches)并将每个patch作为输入序列,然后通过Transformer模型进行处理。

ViT模型的输入是一张图像,首先将图像分割成固定大小的patch,然后将每个patch转换成一个向量(patch embedding)。这个操作可以通过简单的线性变换(通常是一个全连接层)来实现,将每个patch的像素值展平成一个向量作为输入。

Patch Embedding:

•首先,ViT将输入的二维图像分割成多个固定大小的 patches(例如,通常为16x16像素的小块)。

•这些patches被线性嵌入到一个高维向量空间中,每个patch可以看作是一个词或者token,与NLP中的单词嵌入相似。

•对于每个patch,通过一个线性层(如卷积层或全连接层)将其转换成向量表示,并且可能进行一层位置编码(Positional Encoding),以便模型能够捕捉到这些patch在原始图像中的相对位置信息。

而Sora 模型不仅使用了VIT相关的技术,还使用了transformer 以及扩散模型。open AI把技术与实际应用相结合的能力需要佩服。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OPB0d1ieVmLSInqWOnDv9Rqg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券