swin - 腾讯云开发者社区

Swin Transformer（Liu et al。，2021）是一个基于Transformer的深度学习模型，在视觉任务中取得了最先进的性能。与VIT不同Swin Transformer更加高效并且有更高的精度。由于Swin Transformer的一些特性，现在许多视觉的模型体系结构中，Swin Transformers还是被用作模型的骨干。本文旨在使用插图和动画为Swin Transformers提供全面的指南，以帮助您更好地理解这些概念。

您找到你想要的搜索结果了吗？

是的

没有找到

【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer

论文：https://ieeexplore.ieee.org/document/9812535 如有侵权请联系博主

Transformer又一城 | Swin-Unet：首个纯Transformer的医学图像分割模型解读

在过去的几年中，卷积神经网络(CNN)在医学图像分析中取得了里程碑式的进展。尤其是，基于U形结构和skip-connections的深度神经网络已广泛应用于各种医学图像任务中。但是，尽管CNN取得了出色的性能，但是由于卷积操作的局限性，它无法很好地学习全局和远程语义信息交互。

【图像分类】Swin Transformer理论解读+实践测试

Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章，问世时在图像分类、目标检测、语义分割多个领域都屠榜。

Swin Transformer：最佳论文，准确率和性能双佳的视觉Transformer | ICCV 2021

论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

YotoR | 融合 Swin Transformer 和YoloR 的混合架构，提升目标检测性能的新前沿！

卷积神经网络在过去十年中彻底改变了计算机视觉应用，使得诸如目标检测、图像分割和实例分割等任务得以解决。尽管近年来卷积网络 Backbone 有所改进，甚至在某些任务上超过了人类的表现，但多年来在计算机视觉任务中使用Transformers [22] 仍然难以捉摸。

Swin Transformer介绍

Swin Transformer发表于ICCV 2021，获得最佳论文，其作者都来自微软亚洲研究院。

YotoR：融合 Swin Transformer 和YoloR 的混合架构，提升目标检测性能

今天给大家介绍了YotoR（You Only Transform One Representation），这是一种新的目标检测深度学习模型，结合了Swin Transformers和YoloR架构。

Transformer中的FPN-Swin Transformer

Transformer从NLP领域迁移到Vision领域，要解决几个主要问题：1) 尺度问题。同样的物体在同一张图像中的尺寸会有差异；2) 图像的分辨率问题。分辨率太大，直接用Transformer处理的计算代价太大。

Transformer已成新霸主？FAIR等重新设计纯卷积ConvNet，性能反超

视觉识别的快速发展始于 Vision transformer (ViT) 的引入，其很快取代了传统卷积神经网络 (ConvNet)，成为最先进的图像分类模型。另一方面， ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此，有研究者提出分层 Transformer（如 Swin Transformer），他们重新引入 ConvNet 先验，这样使得 Transformer 作为通用视觉主干实际上可行，并在各种视觉任务上表现出卓越的性能。

一文搞定：Swin Transforme环境搭建

本文主要对 Swin-Transformer-Object-Detection[1] 进行简要介绍，并考虑到其环境安装对新手而言是一个常见的挑战，因此本文实现了其对应的环境安装。

基于Transformer的通用视觉架构：Swin-Transformer带来多任务大范围性能提升

将Transformer引入视觉领域后，研究人员们一直在寻求更好的模型架构来适应视觉领域的通用任务。但将Transformer从NLP领域迁移到CV领域面临着众多挑战，与文本相比图像中的视觉实体尺度变化剧烈、图像分辨率很高，带来了多尺度建模与计算量巨大的严峻问题。

UNet家族最强系列 | UNet、UNet++、TransUNet与SWin-UNet究竟哪个更强！！！

本文首发于【集智书童】，白名单账号转载请自觉植入本公众号名片并注明来源，非白名单账号请先申请权限，违者必究。

【他山之石】SAM再进化｜伦敦大学开源 Surgical-DeSAM，无需人工即可完成手术自动化

目的：近期提出的Segment Anything Model（SAM）已经在各种应用中通过点、文本或边界框提示展示了令人印象深刻的性能。

Swin-Unet最强分割网络

Swin-Unet是基于Swin Transformer为基础(可参考Swin Transformer介绍 )，结合了U-Net网络的特点(可参考Tensorflow深度学习算法整理(三) 中的U-Net)组合而成的新的分割网络

完全基于Transformer的目标检测器，ICLR匿名论文实现视觉、检测统一

Transformer 在 NLP 任务中取得不错的发展，许多研究将其引入到计算机视觉任务中。毫不夸张的说，Transformer 正在改变计算机视觉的格局，尤其是在识别任务方面。例如 Detection transformer 是第一个用于目标检测的、端到端的学习系统，而 vision transformer 是第一个完全基于 transformer 的图像分类架构。在本文中，一篇被 ICLR 2022 接收的匿名论文集成了视觉和检测 Transformer (Vision and Detection Transformer，ViDT) 来构建有效且高效的目标检测器。

【读论文】Swin Transformer

论文：https://arxiv.org/abs/2103.14030 如有侵权请联系博主

重磅开源！屠榜各大CV任务！最强骨干网络：Swin Transformer来了

Swin Transformer Official Code已经release啦：

ICCV 2023 | 基于不规则群解耦的语义结构图像压缩

图像压缩技术旨在将图像转换为紧凑的表示，以节省传输和存储资源。有损图像压缩是最实用的技术之一，因为它可以恢复重要内容，同时丢弃少量不重要的信息。在过去的几十年里，传统的图像压缩标准得到了广泛的研究和利用。随着深度学习的快速发展，基于深度学习的图像编解码器迅速发展并取得了很好的结果。与此同时，越来越多的多媒体内容倾向于被机器视觉算法处理，如识别、检测和分割。然而，大多数压缩方法主要用于压缩图像以供人类消费，而没有考虑对下游任务或人机交互场景的支持。

完全基于Transformer的目标检测器，ICLR匿名论文实现视觉、检测统一

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 一种新的集成视觉和检测 Transformer 的目标检测器 ViDT。转自《机器之心》Transformer 在 NLP 任务中取得不错的发展，许多研究将其引入到计算机视觉任务中。毫不夸张的说，Transformer 正在改变计算机视觉的格局，尤其是在识别任务方面。例如 Detection transformer 是第一个用于目标

详解Swin Transformer核心实现，经典模型也能快速调优

2020年，基于自注意力机制的Vision Transformer将用于NLP领域的Transformer模型成功地应用到了CV领域的图像分类上，并在ImageNet数据集上得到88.55%的精度。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

本文作者为VMamba的原班人马，其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生，共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。

Swin Transformer升级版来了！30亿参数，刷榜多项视觉任务，微软亚研原班人马打造

机器之心报道编辑：杜伟、陈萍微软亚洲研究院升级了 Swin Transformer，新版本具有 30 亿个参数，可以训练分辨率高达 1,536×1,536 的图像，并在四个具有代表性的基准上刷新纪录。在不久之前公布的 ICCV 2021 论文奖项中，来自微软亚洲研究院的研究者凭借论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》斩获 ICCV 2021 马尔奖（最佳论文）。这篇论文的作者主要包括中国科

J Cheminform｜基于Swin Transformer的端到端光学化学结构识别

2022年7月1日，来自华东理工大学的李洪林等人在Journal of Cheminfomatics上发表文章，提出了SwinOCSR，这是一种基于Swin Transformer的端到端模型。该模型使用Swin Transformer作为骨干来提取图像，以将化学结构信息从出版物转换为SMILES。实验结果表明，模型明显优于所比较的方法，证明了模型的有效性。此外，作者使用focal loss来解决化学结构图的文本表示中的标签不平衡问题。

Swim-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2111.09883.pdf 源代码：https://github.com/microsoft/Swin-Transformer 计算机视觉研究院专栏作者：Edison_G MSRA时隔大半年放出了Swin Transformer 2.0版本，在1.0版本的基础上做了改动，使得模型规模更大并且能适配不同分辨率的图片和不同尺

Swin-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）

ICLR2022 ViDT | 检测超越YOLOS，实例分割超越SOLOv2，同时达到实时！！！

ViDT首先重新配置Swin Transformer的注意力模型，以支持独立的目标检测，同时完全重用Swin Transformer的参数。接下来，它结合了一个Encoder-free neck layer来利用多尺度特征和两种基本技术：Auxiliary decoding loss和Iterative Box Refinement。

Swin Transformer V2！MSRA原班人马提出了30亿参数版本的Swin Transformer！

在本文中，作者提出了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1536×1536分辨率的图像进行训练。通过扩大容量和分辨率，Swin Transformer在四个具有代表性的视觉基准上创造了新的记录：ImageNet-V2图像分类的84.0%top-1 准确度，COCO目标检测上的63.1/54.4box / mask mAP ，ADE20K语义分割的59.9 mIoU ，以及Kinetics-400视频动作分类的86.8%top-1 准确度。目前，视觉模型尚未像NLP语言模型那样被广泛探索，部分原因是训练和应用中的以下差异:

shift+window+s_Dijkstra算法

项目地址：https://github.com/microsoft/Swin-Transformer

超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer

自2020年以来，学术界已经提出很多关于Vision Transformer的架构和方法，也有很多关于高效Transformer的工作被提出。但是，不管是标准的ViT还是高效的ViT，虽然其中的Self Attention相对于嵌入维度具有线性复杂度(不包括线性投影)，但相对于Token数量却具有二次复杂度。而Token的数量通常又与图像分辨率呈线性相关。因此，更高的图像分辨率将会带来复杂度和内存的二次增长。

swin transformer源码解读

2020 年 5 月，Facebook AI 推出了DERT（ Detection Transformer），用于目标检测和全景分割。

高分遥感图像解决方案

中科星途遥感图像解译大赛今年有六个赛道，涵盖检测、分割、跟踪等任务。其中检测主赛道依托中科院新发布的百万级实例的FAIR1M数据集。具体赛道情况如下：

当Swin Transformer遇上DCN，清华可变形注意力Transformer模型优于多数ViT

Transformer 近来在各种视觉任务上表现出卓越的性能，感受野赋予 Transformer 比 CNN 更强的表征能力。然而，简单地扩大感受野会引起一些问题。一方面，使用密集注意力（例如 ViT）会导致过多的内存和计算成本，并且特征可能会受到超出兴趣区域的无关部分的影响；另一方面，PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关，可能会限制对远程（long range）关系建模的能力。

微软提出MiniViT | 把DeiT压缩9倍，性能依旧超越ResNet等卷积网络

大规模预训练的Vision TRansformer，如ViT, CvT和Swin，由于其高性能和下游任务的优越性能，最近引起了极大的关注。然而，它们通常涉及巨大的模型尺寸和大量的训练数据。例如，ViT需要使用3亿张图像来训练一个带有6.32亿参数的巨大模型，才实现了图像分类的最先进性能。同时，Swin使用2-3亿个参数，并在ImageNet-22K上进行了预训练，以在下游检测和分割任务上取得良好的性能。

魔改ResNet反超Transformer再掀架构之争！作者说“没一处是创新”，这些优化trick值得学

梦晨发自凹非寺量子位 | 公众号 QbitAI 过去一年，Transformer频频跨界视觉领域，大有抢CNN饭碗之势。先是图像分类上被谷歌ViT突破，后来目标检测和图像分割又被微软Swin Transformer拿下。随着投身视觉Transformer研究的学者越来越多，三大任务榜单皆被Transformer或两种架构结合的模型占据头部。但就在此时，一篇《2020年代的卷积网络》横空出世，带来全新纯卷积模型ConvNeXt，一下又热闹起来—— 全世界CV圈再次掀起模型架构之争，LeCun等一众

CycleMLP:一种用于密集预测的mlp架构

CycleMLP由香港大学、商汤科技研究院和上海人工智能实验室共同开发，在2022年ICLR上发布。

【目标检测/实例分割】Mask R-CNN简介与Swin Transformer实践测试

之前在看Swin Transformer的时候，发现该算法在目标检测、实例分割等各种视觉任务上屠榜，于是想来实践测试一下。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度大大提升 | 东大&商汤&悉大

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号量子位授权自何恺明MAE横空出世以来，MIM（Masked Image Modeling）这一自监督预训练表征越来越引发关注。但与此同时，研究人员也不得不思考它的局限性。 MAE论文中只尝试了使用原版ViT架构作为编码器，而表现更好的分层设计结构（以Swin Transformer为代表），并不能直接用上MAE方法。于是，一场整合的范式就此在研究团队中上演。代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM，它探索了Swin

ConvNeXt：新一代卷积网络，还不是ViT的时代（代码开源）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 源代码：https://github.com/facebookresearch/ConvNeXt 计算机视觉研究院专栏作者：Edison_G 自从ViT提出之后，在过去的一年里（2021年），Transformer在深度学习领域大杀四方，很多纯卷积的网络也不断的革新。基于transformer的模型在计算机视觉各

大到31x31的超大卷积核，涨点又高效，一作解读RepLKNet

来源：机器之心本文约4000字，建议阅读9分钟你有多久没调过 kernel size 了？虽然常常被人忽略，但只要将其简单加大，就能给人惊喜。当你在卷积网络（CNN）的深度、宽度、groups、输入分辨率上调参调得不可开交的时候，是否会在不经意间想起，有一个设计维度 kernel size，一直如此显而易见却又总是被忽视，总是被默认设为 3x3 或 5x5？当你在 Transformer 上调参调得乐不思蜀的时候，是否希望有一种简单、高效、部署容易、下游任务性能又不弱于 Transformer 的模型，

大到31x31的超大卷积核，涨点又高效，一作解读RepLKNet

机器之心转载来源：知乎作者：丁霄汉你有多久没调过 kernel size 了？虽然常常被人忽略，但只要将其简单加大，就能给人惊喜。当你在卷积网络（CNN）的深度、宽度、groups、输入分辨率上调参调得不可开交的时候，是否会在不经意间想起，有一个设计维度 kernel size，一直如此显而易见却又总是被忽视，总是被默认设为 3x3 或 5x5？当你在 Transformer 上调参调得乐不思蜀的时候，是否希望有一种简单、高效、部署容易、下游任务性能又不弱于 Transformer 的模型，带

CVPR VISION 23挑战赛第1赛道亚军解决方案 - 数据高效缺陷检测

CVPR VISION 23挑战赛第1赛道 "数据智能缺陷检测 "要求参赛者在数据缺乏的环境下对14个工业检测数据集进行实例分割。本论文的方法聚焦于在有限训练样本的场景下提高缺陷掩模的分割质量的关键问题。基于混合任务级联(HTC)实例分割算法，我们用受CBNetv2启发的复合连接将transformer骨干(Swin-B)连接起来以增强基准结果。此外，我们提出了两种模型集成方法来进一步增强分割效果:一种是将语义分割整合到实例分割中，另一种是采用多实例分割融合算法。最后，通过多尺度训练和测试时数据增强(TTA)，我们在数据高效缺陷检测挑战赛的测试集上获得了高于48.49%的平均mAP@0.50:0.95和66.71%的平均mAR@0.50:0.95。论文链接：https://arxiv.org/abs/2306.14116 代码链接：https://github.com/love6tao/

看懂这25个核心概念，就没有啃不动的机器学习论文

MLer 寒假也要卷起来。作者 | 李梅编辑 | 陈彩娴机器学习领域的研究进展迅速，研究者既要及时跟进最新研究，也要不时地回顾经典。寒假开始，各位机器学习er在度假之余，想必也不会忘了自己卷王的身份。最近，Github上出现了一个名为“ML Papers Explained”的优质项目，精选了机器学习领域的一些核心概念，对相关工作的原始论文做了解读，实在是广大MLer的一大福利。项目地址：https://github.com/dair-ai/ML-Papers-Explained 1 25个必学

以动制动 | Transformer 如何处理动态输入尺寸

在图像分类任务中，主干网络是视觉神经网络中进行图像特征提取的主体，常见的算法包括我们耳熟能详的 ResNet、Vision Transformer 等。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度大大提升 | 东大&商汤&悉大

杨净发自凹非寺量子位 | 公众号 QbitAI 自何恺明MAE横空出世以来，MIM（Masked Image Modeling）这一自监督预训练表征越来越引发关注。但与此同时，研究人员也不得不思考它的局限性。 MAE论文中只尝试了使用原版ViT架构作为编码器，而表现更好的分层设计结构（以Swin Transformer为代表），并不能直接用上MAE方法。于是，一场整合的范式就此在研究团队中上演。代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM，它探索了Swin Transform

何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号量子位授权微软的Swin Transformer去年横空出世，一举突破了Transformer做视觉任务复杂度过高的问题。这种把Transformer“卷积网络”化的做法，也成为当前ViT研究领域的热门方向。但现在，何恺明团队的最新论文提出了不同的观点：在目标检测任务上，像Swin Transformer那样的复杂操作可能是没有必要的。只用普通ViT做骨干网络，一样能在目标检测任务上拿下高分。不对ViT引入分层设计 ViT可以说是打开了

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐