腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

计算机视觉战队

专栏作者

813

文章

720178

阅读量

103

订阅数

ViT杀疯了，10+视觉Transformer模型详解

深度学习 opencv 图像识别图像处理 NLP 服务

Transformer 作为一种基于注意力的编码器 - 解码器架构，不仅彻底改变了自然语言处理（NLP）领域，还在计算机视觉（CV）领域做出了一些开创性的工作。与卷积神经网络（CNN）相比，视觉 Transformer（ViT）依靠出色的建模能力，在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。正如德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说：我们有充分的理由尝试在整个 AI 任务范围内尝试使用 Transformer。因此，无论是学术界的研究人员，

计算机视觉研究院

2022-07-12

7740

DeepMind「通才」AI智能体Gato来了，多模态、多任务，受大语言模型启发

NLP 服务图像处理机器人游戏

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 在写文章、画图之后，AI 大模型现在又同时有了打游戏的能力。不禁在想，DeepMind 的智能体 Gato 未来还能玩出哪些花活？转自《机器之心》假如使用单一序列模型就能解决所有任务，是再好不过的事情，因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性，此外，这种通用模型随着数据的扩充和模型的扩展，性能还会提高。

计算机视觉研究院

2022-05-19

2980

即插即用、无需训练：剑桥大学、腾讯AI Lab等提出免训练跨模态文本生成框架

tcp/ip 图像识别 NLP 服务

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的框架 MAGIC (iMAge-guided text GeneratIon with CLIP），MAGIC 通过直接插入可控图文匹配模型分数的方式，使得语言模型在解码过程中选择更接近图片信息的生成结果。机器之心发布 1 导读本文提出了一个全新的 MAGIC (i

计算机视觉研究院

2022-05-16

2750

Swin-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）

图像识别对象存储图像处理 http NLP 服务

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2111.09883.pdf 源代码：https://github.com/microsoft/Swin-Transformer 计算机视觉研究院专栏作者：Edison_G MSRA时隔大半年放出了Swin Transformer 2.0版本，在1.0版本的基础上做了改动，使得模型规模更大并且能适配不同分辨率的图片和不同尺

计算机视觉研究院

2022-05-05

6560

强到离谱，Transformer为何能闯入CV界秒杀CNN？

云直播 NLP 服务机器学习神经网络深度学习

Transformer 近年来已成为视觉领域的新晋霸主，这个来自 NLP 领域的模型架构为何能闯入CV界秒杀CNN？自提出之日起，Transformer模型已经在CV、NLP以及其他更多领域中「大展拳脚」，实力冲击CNN。 Transformer为什么这么有实力？因为它在分类、检测等任务上展现了极其强劲的性能。而且骨干网络上的发展也推动了下游任务的发展，Swin Transformer更是成了屠榜般的存在，在工业界具有广阔的应用前景。所以引起了人工智能研究生的强烈兴趣。但要想啃透CV Transfor

计算机视觉研究院

2022-04-19

2740

Swim-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）

图像识别对象存储图像处理 http NLP 服务

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2111.09883.pdf 源代码：https://github.com/microsoft/Swin-Transformer 计算机视觉研究院专栏作者：Edison_G MSRA时隔大半年放出了Swin Transformer 2.0版本，在1.0版本的基础上做了改动，使得模型规模更大并且能适配不同分辨率的图片和不同尺

计算机视觉研究院

2022-03-24

1.6K0

入门nlp必读的10篇baseline论文

云直播 NLP 服务编程算法机器学习神经网络

我把NLP文本分类任务的10篇经典论文称为“baseline 论文”——基石论文。吃透baseline论文，是学习NLP其他细分任务论文的基础。这10篇论文的篇目如下： ICLR2013，Word2Vec 词向量扛鼎之作《Efficient Estimation of Word Representation in Vector Space》 EMNLP2014，Glove：最出名的词向量训练方法之一《GloVe: Global Vectors for Word Representation》 EMNL

计算机视觉研究院

2022-03-16

1.3K0

2021最新文本综述：从浅层到深度学习（附PDF下载）

学习方法 NLP 服务特征工程深度学习机器学习

文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功，过去十年中该领域的研究激增。已有的文献提出了许多方法，数据集和评估指标，从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法，重点是从浅层学习到深度学习的模型。根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类的分类法。然后，详细讨论这些类别中的每一个类别，涉及支持预测测试的技术发展和基准数据集。并提供了不同技术之间的全面比较，确定了各种评估指标的优缺点。最后，通过总结关键含义，未来的研究方向以及研究领域面临的挑战进行总结。

计算机视觉研究院

2022-01-25

7850

机器学习模型部署 | 剑桥研究者梳理了99篇相关研究（附论文下载）

数据分析 NLP 服务机器学习深度学习神经网络

在生产环境中部署机器学习模型是一个复杂的过程，需要考虑诸多因素，也存在很多挑战。近日，来自剑桥的研究者梳理了该流程常见的问题。

计算机视觉研究院

2022-01-25

1590

2020最新文本综述：从浅层到深度学习（附PDF下载）

学习方法 NLP 服务特征工程深度学习机器学习

文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功，过去十年中该领域的研究激增。已有的文献提出了许多方法，数据集和评估指标，从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法，重点是从浅层学习到深度学习的模型。根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类的分类法。然后，详细讨论这些类别中的每一个类别，涉及支持预测测试的技术发展和基准数据集。并提供了不同技术之间的全面比较，确定了各种评估指标的优缺点。最后，通过总结关键含义，未来的研究方向以及研究领域面临的挑战进行总结。

计算机视觉研究院

2020-08-13

2K0

CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习（文末源码）

首先，祝贺我党在3月成功举行了“两会”，希望我党越来越强大。在接下来将会有好几场关于IEEE会议，也会着重指向接下来人工智能的发展风向标，有兴趣的同学可以持续关注。

计算机视觉研究院

2019-05-13

1.9K0

CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习（文末源码）

首先，祝贺我党在3月成功举行了“两会”，希望我党越来越强大。在接下来将会有好几场关于IEEE会议，也会着重指向接下来人工智能的发展风向标，有兴趣的同学可以持续关注。

计算机视觉研究院

2019-05-13

1.9K0

AI都可以将文字轻松转成图像

人工智能 NLP 服务

夜晚是如此的安静，但是依然有很多挑灯夜战的你、他、她......无论在哪座城市，都会有忙碌的人在灯光下依然勤奋努力的工作，希望分享的这首小曲可以缓解夜间工作的疲惫，更希望眺望远处的朦胧灯火，依然是一个美好的心情！现在的我也是在暖黄色的灯光下书写今天分享的趣文，希望阅读到的朋友可以放下手头工作，小息片刻来欣赏今天的好文~

计算机视觉研究院

2018-07-25

6480

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态