首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    arxiv | Swin Transformer:使用移动窗口的分层Vision Transformer

    今天给大家介绍的是微软亚洲研究院的一篇文章”Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”。从语言到视觉应用Transformer的挑战来源于两个领域的差异,例如和文本字词相比视觉实体的复杂变化以及图像像素的高分辨率两方面的差异。为了解决这样的问题,作者在这篇文章中提出一种称为Swin Transformer新型Vision Transformer。Swin Transformer使用允许跨窗口连接的移动窗口将自注意力限制在不重叠的局部窗口上计算表示,其提出的层次结构具有不同尺度上图像上建模的灵活性,在各种视觉任务上取得优秀的结果,有望在计算机视觉领域取代CNN成为一种通用框架。

    04

    CVPR VISION 23挑战赛第1赛道亚军解决方案 - 数据高效缺陷检测

    CVPR VISION 23挑战赛第1赛道 "数据智能缺陷检测 "要求参赛者在数据缺乏的环境下对14个工业检测数据集进行实例分割。本论文的方法聚焦于在有限训练样本的场景下提高缺陷掩模的分割质量的关键问题。基于混合任务级联(HTC)实例分割算法,我们用受CBNetv2启发的复合连接将transformer骨干(Swin-B)连接起来以增强基准结果。此外,我们提出了两种模型集成方法来进一步增强分割效果:一种是将语义分割整合到实例分割中,另一种是采用多实例分割融合算法。最后,通过多尺度训练和测试时数据增强(TTA),我们在数据高效缺陷检测挑战赛的测试集上获得了高于48.49%的平均mAP@0.50:0.95和66.71%的平均mAR@0.50:0.95。论文链接:https://arxiv.org/abs/2306.14116 代码链接:https://github.com/love6tao/

    04
    领券