
来自https://www.youtube.com/watch?v=TrdevFK_am4的一篇题为“图像值16X16字:用于图像识别的变形金刚”的论文
将其与此处所示的体系结构进行比较,https://jalammar.github.io/illustrated-transformer/
那么ViT有一个更简单的体系结构?似乎编码器的输出是MLP的输入,用于分类任务。
此外,为了学习的目的,我也被推荐到这个回购https://github.com/lucidrains/vit-pytorch。
还有其他我应该知道的吗?
我参加了GaTech OMSCS的计算摄影课程(我的专长是机器人和计算感知),但那是在2019年,所以我需要做一些追赶,更不用说计算机视觉不同于摄影。
请随时链接到额外的资源,我应该通过。
发布于 2023-05-06 10:42:24
发布于 2023-05-06 04:37:59
我提示ChatGPT并收到了一个很好的响应,包括一个指向https://ai.googleblog.com/2020/12/transformers-for-image-recognition-at.html的链接。
迅速:
请链接到一些实现示例和教程,包括拥抱脸,因为题为图像值16X16字的论文:变形金刚用于图像识别的比例尺,以便我可以了解更多。
响应:
以下是论文“图像值16X16字:用于图像识别的变形金刚”的一些示例实现和教程:
这是我的第二个提示,因为我知道拥抱的脸在第一个提示的反应中丢失了:
在Google博客中,您可以看到一个演示模型简单性的动画:
https://datascience.stackexchange.com/questions/121364
复制相似问题