允许具有预定义大小的重叠图像_图像( QPixmap )的平铺具有重叠的区域_具有重叠部分的图像的字符分割 - 腾讯云开发者社区

而Token的数量通常又与图像分辨率呈线性相关。因此，更高的图像分辨率将会带来复杂度和内存的二次增长。...虽然Vision Transformer中的MLP层具有具有局部性和平移不变性，但其余的归纳偏差必须通过大量数据或炼丹技术和增强来弥补。...因此，在单个像素上的Neighborhood Attention可以定义如下：其中，其中Q、K、V是X的线性投影，为相对位置偏差，根据相对位置将其添加到每个注意力权重中。...这是一个关键的设计选择，它允许NA随着邻域大小向特征图分辨率增长而一般化到Self Attention。图6 扩展邻域是通过简单持续选择L2中最接近原始邻域的像素来实现的。...由于tokenizer的降采样倍数为4倍，因此模型生成了大小为H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32的特征图.使得NAT可以更容易地将预训练过的模型迁移到下游任务中。

9133 0

最强Vision Trabsformer | 87.7%准确率！CvT:将卷积引入视觉Transformer(文末附论文下载)

首先，图像被分割成离散的不重叠的小块(例如16×16)；然后，将这些小块作为Token(类似于NLP中的Token)，用一种特殊的位置编码来表示空间信息，然后输入到标准Transformer层中建模全局关系...条件位置编码视觉Transformer(CPVT)用条件位置编码(CPE)取代了ViT中预定义的位置嵌入，使Transformer能够处理任意大小的输入图像而无需插值； Transformer In Transformer...如图2(a)所示，本文借鉴了CNN的多阶段层次设计，共采用了3个阶段：首先，输入图像经过卷积Token嵌入层，卷积层是将重构Token的重叠块卷积到二维空间网格作为输入(重叠程度可通过步长来控制)。...给定一个2D图像或者从第阶段得到的2D-reshaped Token Map输出作为第阶段的输入，这里通过学习一个函数将映射到一个新的通道大小为的Token ，的二维卷积核大小为...这个内置属性允许在不影响性能的情况下删除网络中嵌入的位置，从而简化了具有可变输入分辨率的视觉任务的设计。

1.7K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

继 Swin Transformer 之后，MSRA 开源 Video Swin Transformer，在视频数据集上SOTA

由于局部注意力是在非重叠窗口上计算的，因此原始Swin Transformer的滑动窗口机制也被重新定义了，以适应时间和空间两个域的信息。...由于Video Swin Transformer改编于Swin Transformer，因此Video Swin Transformer可以用在大型图像数据集上预训练的模型进行初始化。...2.2.1 在不重叠的三维窗口上的MSA 在每个不重叠的二维窗口上的MSA机制已被证明对图像识别是有效并且高效的。在这里，作者直接扩展了这种设计到处理视频输入中。...给定一个由个3D token组成的视频，3D窗口大小为，这些窗口以不重叠的方式均匀地分割视频输入。这些token被分成了多个不重叠的3D窗口。...该模型从用于图像识别的Swin Transformer改变而来，因此它可以利用预训练的Swin Transformer模型进行参数的初始化。

1.3K2 0

小目标Trick | Detectron2、MMDetection、YOLOv5都通用的小目标检测解决方案

虽然训练后的模型对这些类型的输入数据具有成功的检测性能，但在高端无人机和监视摄像机生成的高分辨率图像中，它们对小目标检测任务的精度明显较低。...DORI标准定义了不同任务对象的最小像素高度：10%的图像高度需要检测，20%的图像需要识别物体（全高清视频中的108像素）。...两阶段区域建议的方法，如Fast R-CNN、Faster R-CNN、Cascade R-CNN，涉及区域建议阶段。然后对这些建议框进行细化，以定义目标的位置和大小。...3本文方法为了解决小目标检测问题，作者提出了一个在微调和推理阶段基于切片的通用框架。将输入图像划分为重叠的切片，对于小目标相对于输入网络的图像产生相对较大的像素区域。...这些常见的数据集大多涉及低分辨率的图像（640×480），它们具有相当大的目标和较大的像素覆盖（平均覆盖图像高度的60%）。使用这些数据集进行预训练的模型为相似的输入提供了非常成功的检测性能。

1.7K2 0

霸榜各大CV任务榜单，Swin Transformer横空出世！

移位窗口方案通过将self-attention计算限制在非重叠的局部窗口上，同时允许跨窗口连接，从而提高了效率。这种分层结构具有在不同尺度下建模的灵活性，并且相对于图像大小具有线性计算复杂性。...线性计算复杂度是通过在分割图像的非重叠窗口（红色轮廓）内局部计算自我注意来实现的。每个窗口中的面片数是固定的，因此复杂度与图像大小成线性关系。...移位窗口分割方法引入了前一层相邻非重叠窗口之间的连接，被发现在图像分类、目标检测和语义分割上是非常有效的。...在预训练中学习到的相对位置偏差也可以用来初始化模型，通过bi-cubic插值对不同窗口大小的模型进行微调。...表中列出了用于ImageNet图像分类的模型变量的模型大小、理论计算复杂度（FLOPs）和吞吐量。实验 1. ImageNet-1K的图像分类 ?

1.4K3 0

CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架

机器之心专栏机器之心编辑部来自上海交通大学、Mila 魁北克人工智能研究所以及字节跳动的研究者提出了一种具有层级语义结构的自监督表征学习框架，在 ImageNet 数据集上预训练的模型在多个下游任务中取得了...近年来, 计算机视觉领域涌现出一大批有效的自监督预训练模型，如 NPID、SimCLR、MoCo 等，它们能够从大规模数据集中通过自监督的方式学习潜在的图像语义表征，从而提升预训练模型在各项下游任务（如物体分类...这些自监督预训练框架通常基于对比学习实现. 对比学习通过定义正负样本对，并在表征空间中最大化正样本对之间的相似度而最小化负样本对之间的相似度, 从而达到「同类相吸、异类互斥」的目的。...，从而学习对数据增强具有不变性的图像表征。...然而, 现有的自监督对比学习框架存在两个问题：缺乏对上述层级语义结构的建模；负样本对的定义可能存在噪声：随机选择的两张图像可能属于相同类别。

6425 0

霸榜多个CV任务，开源仅两天，微软分层ViT模型收获近2k star

机器之心报道编辑：维度屠榜各大 CV 任务的微软 Swin Transformer，近日开源了代码和预训练模型。...该研究的亮点在于利用移动窗口对分层 Transformer 的表征进行计算。通过将自注意力计算限制在不重叠的局部串口，同时允许跨窗口连接。...这种分层结构可以灵活地在不同尺度上建模，并具有图像大小的线性计算复杂度。下图 2 为在 Swin Transformer 架构中利用移动窗口计算自注意力的工作流： ?...模型本身具有的特性使其在一系列视觉任务上都实现了颇具竞争力的性能表现。...开源代码和预训练模型 Swin Transformer 论文公开没多久之后，微软官方于近日在 GitHub 上开源了代码和预训练模型，涵盖图像分类、目标检测以及语义分割任务。

5051 0

Dynamic Pre-training：实现高效、可扩展的一体化(All-in-one)图像恢复

本文引入了一种动态预训练策略，这是一种新方法，允许在单个会话中同时对体积较大和重量较轻的网络变体进行大规模预训练。...从这个数据集中，本文提取了800万个不重叠的高分辨率补丁，每个补丁的大小为512×512，用于对拟议的DyNet变体进行预训练。...为了解决这一差距，本文引入了一个名为 Million-IRD 的新百万级数据集，该数据集具有 ∼2M 高质量、高分辨率图像，专门用于预训练图像恢复任务的模型。...我们从每张图像中提取高分辨率的非重叠斑块（空间大小为512x512），然后应用平坦区域检测器，消除任何包含超过50%平坦面积的斑块。...本文使用Million - IRD数据集的全部 512^2 大小的8M块进行动态预训练。我们从每个斑块中随机裁剪 128^2 个区域，批大小为32。

2401 0

A Comparison of Super-Resolution and Nearest Neighbors Interpolation

本研究是首个将目标检测与卫星图像上的遥感联系起来的研究，并证明遥感在车辆和船只等小型目标的目标检测方面具有显著的增强作用。...用官方的Darknet-10预训练的卷积权重来预训练我们的模型，并且用ImageNet来初始化我们的模型，增加了数据来随机调整色调、饱和度和曝光率，使模型对颜色和光照的变化具有鲁棒性。...xView数据集中的图像非常大，每个图像的大小大约为4000x3000。...这将导致图像边缘出现明显的重叠，不过对于大型场景，这种重叠并不明显。...在第二个平铺阶段，这种显著的重叠成为性能的一个额外优势，因为它允许YOLOv2有第二次机会检测场景中的对象，通常可以正确地检测在一个重叠平铺中丢失的对象。

1.7K3 0

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

卷积层以滑动窗口的方式运行，输出特征图，表示激活的空间排列(图2)。实际上，卷积层不需要固定的图像大小，可以生成任意大小的特征图。另一方面，根据定义，全连接层需要有固定的大小/长度输入。...SPP-net不仅可以从任意大小的图像/窗口生成用于测试的表示，还允许我们在训练期间提供不同大小或比例的图像。使用可变大小的图像进行训练可以提高尺度不变性，减少过拟合。...使用空间金字塔池，输入图像可以是任何大小。这不仅允许任意宽高比，还允许任意比例。我们可以调整输入图像的大小到任意比例(例如，min(w,h)=180, 224，…)，并应用相同的深度网络。...在测试阶段，我们调整图像的大小，使min(w,h) = s，其中s表示预定义的比例(如256)。然后从整个图像中计算卷积特征图。对于翻转视图的使用，我们还计算了翻转图像的特征图。...我们使用224×224作为任何比例的视图大小，因此这些视图对于不同比例的原始图像具有不同的相对大小。

1.8K2 0

PVT重磅升级：三点改进，性能大幅提升

在第一个阶段，给定尺寸为的输入图像，我们按照如下流程进行处理：首先，将其划分为的块(这里是为了与ResNet对标，最大输出特征的尺寸为原始分辨率的1/4)，每个块的大小为；然后，将展开后的块送入到线性投影曾得到尺寸为...类似ViT，PVTv1同样将图像视作非重叠块序列，而这种处理方式会在一定程度上破坏图像的局部连续性。...也就是说，在PVTv2中，我们采用重叠块嵌入对图像进行序列化。下上图a为例，我们扩大了块窗口，使得近邻窗口重叠一半面积。在这里，我们采用带zero-padding的卷积实现重叠块嵌入。...Details of PVTv2 Seris 组合上述三点改进即得到了本文的PVTv2，它具有以下三个特性：包含图像/特征更多的局部连续性；更灵活的处理可变分辨率图像；具有类似CNN的线性复杂度。...COCO 上表给出了COCO目标检测与实例分割方面的性能对比，从中可以看到：在单阶段与双阶段目标检测方面，PVTv2均比PVTv1具有更好的性能：相同模型大小，更高的指标。

9151 0

详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能？（附论文下载）

通过这些简单的修改，PVTv2在分类、检测和分割方面显著优于PVTv1。此外，PVTv2在ImageNet-1K预训练下取得了比近期作品（包括 Swin Transformer）更好的性能。...3金字塔ViT的改进点与ViT类似，PVT-v1将图像看作是一系列不重叠的patch，在一定程度上失去了图像的局部连续性。...此外，PVT-v1中的位置编码是固定大小的，对于处理任意大小的图像是不灵活的。这些问题限制了PVT-v1在视觉任务中的表现。...为了解决这些问题，本文提出了PVT-v2，它通过以下设计改进了PVT-v1的性能: 3.1 Overlapping Patch Embedding 作者利用重叠的patch嵌入来标记图像。...P为线性SRA的pool size，默认为7。结合这3种改进，PVTv2可以：获得更多的图像和特征图的局部连续性; 变分辨率输入更加灵活; 具有和CNN一样的线性复杂度。

2.2K4 0

End-to-end people detection in crowded scenes

在实例重叠的情况下，需要图像信息来决定将边界框放置在哪里以及输出多少个。作为解决方法，几种方法提出了专门处理预定义相关对象（例如行人对）的特定解决方案[5,23]。...两种方法都产生描述包含对象的图像区域的边界框，然后通过合并严重重叠的实例来修剪网络输出。这对于具有少量不重叠对象实例的图像工作良好，但是在存在强闭塞的情况下通常会失效。...Faster R-CNN通过将对象划分为9个具有3个尺度和3个纵横比的类别来解决这个问题，允许网络直接产生多个重叠对象，只要它们具有不同的尺寸[16]。...网格中的每个单元具有大小为139×139的感受野，并且被训练以产生与中心64×64区域相交的所有边界框的集合。选择64x64大小，足够大以捕获具有挑战性的局部遮挡相互作用。...连带地，这允许对实例生成预测，即使它们在图像中明显重叠。 4. Experimental results 数据集和评估指标：　我们在两个数据集上评估我们的方法。

1.4K6 0

计算机视觉中的Transformer

Vision Transformer模型结构图像序列patches 它们是如何将图像分割成固定大小的小块，然后将这些小块的线性投影连同它们的图像位置一起输入变压器的。...例如，ViT-L/16可以被解释为一个大的(24层)ViT模型，具有16×16的输入图像patch大小。...即使是在ImageNet-21K上预训练的ViT也比基线表现更好。模型性能 vs 数据集大小 ? 预训练数据集大小VS模型性能上图显示了数据集大小对模型性能的影响。...当预训练数据集的大小较小时，ViT的表现并不好，当训练数据充足时，它的表现优于以前的SOTA。哪种结构更高效？...通过观察颜色/注意力，你会惊讶于模型的能力，通过自注意在全局范围内理解图像，解决重叠的包围框的问题。尤其是斑马腿上的橙色，尽管它们与蓝色和绿色局部重叠，但还是可以很好的分类。 ?

8563 0

OUR-GAN：单样本超高分辨率图像生成

该研究通过预训练 ESRGAN（一种以良好的输出质量而闻名的超分辨率模型）来实现高保真度，然后使用单个训练图像对其进行微调。...在之前的工作中，有超分辨率模型，例如 ZSSR 和 MZSR [21]，可以从单个图像中学习。然而，在初步实验中，预训练 ESRGAN 表现出比零样本超分辨率模块更高的图像质量。...[28] 应用了重叠平铺（overlap-tile）策略，扩展输入子区域以阻止边界处零填充的影响。[12] 通过仔细设计具有交替卷积和转置卷积的网络来消除零填充。...受 Wenjie Luo 等人 (2016) 的启发，研究者将重叠大小设置为 ERF 的半径，如图 6 所示，它明显小于 TRF。图 7 中的实验结果表明，等于 ERF 半径的重叠足以防止不连续性。...然而，OUR-GAN 成功地合成了具有视觉连贯形状和精细细节的高质量图像。与其他模型相比，OUR-GAN 合成了最具视觉冲击力的图像。

8372 0

计算机视觉中的Transformer

1.1K2 0

Meta 自监督学习 I-JEPA 论文笔记

常用的方法是使用一组手工制作的数据增强来构建，例如随机缩放、裁剪和颜色抖动。这些预训练方法可以产生高语义级别的表示，但它们也引入了强烈的偏差，这可能对某些下游任务甚至具有不同数据分布的预训练任务不利。...然而，由此产生的表示通常具有较低的语义级别，并且在现成的评估（例如，线性探测）和语义分类任务监督有限的迁移设置中表现弱于基于不变性的预训练。...I-JEPA 在语义任务上与视图不变的预训练方法相比具有竞争力，并且在目标计数和深度预测等低级视觉任务上取得了更好的性能。...缩放数据/模型大小本文还发现 I-JEPA 可以从更大数据集的预训练中获益。下表显示了在增加预训练数据集的大小时（IN1K 与 IN22K）在语义和低级任务上的迁移学习性能。...ViT-G/16 使用较大的输入patch大小，这可能不利于局部预测任务。

5541 0

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

为了处理具有不同长宽比的图像，LLaVA-1.5 在将图像输入视觉编码器之前将其填充为正方形。这种编码方法导致非正方形图像的计算浪费。例如，将 1:4 图像填充为正方形后，有效计算量仅为 25%。...LaVA-UHD 包括三个关键部分：一种图像模块化策略，将原始分辨率的图像分成更小的可变大小的切片，以便进行高效和可扩展的编码；一个压缩模块，进一步压缩来自视觉编码器的图像 tokens，一个空间装饰模式...给定图像分辨率和和在固定分辨率上预训练的 ViT，首先确定处理图像所需的切片数。然后将切片数因式分解为和几种划分方式。...为了选择最合适的划分，作者定义一个评分函数来衡量与 ViT 标准预训练设置的偏差，进而选择最佳的划分方法。 2. 任意宽高比切片编码（如图 4 右侧）。...原因在于低分辨率图像中的模糊内容可能会阻止 LMMs 准确识别具有挑战性的细粒度目标和 OCR 字符。

671 0

目标检测——SPPNet【含全网最全翻译】「建议收藏」

SPP-net不仅仅让测试阶段,允许任意尺寸的输入能够产生表示(representations);也允许训练阶段,图像可以有各种尺寸和缩放尺度。...多亏了SPP的灵活性，我们可以轻松地从卷积特征图中任意大小的窗口（视图）中提取特征。在测试阶段，我们调整图像的大小，使min（w; h）= s，其中s代表预定义比例（如256）。...我们使用224×224作为任何比例的视图大小，因此对于不同比例，这些视图在原始图像上具有不同的相对大小。...（检测数据少）其次，DET的类别编号是CLS的1/5。为了克服这个问题，我们利用提供的子类别标签2进行预训练。共有499个非重叠子类别（即，所提供的类别层次结构中的叶节点）。...为了解决比例差异，我们将每个训练图像的大小调整为min（w，h）= 400（而不是256），并随机裁剪224×224个视图以进行训练。仅当裁剪与地面实况对象重叠至少50％时才使用裁剪。

7181 0

URPC 2019 水下目标检测竞赛冠军方案：多图像融合增强

和一般的数据集相比，水下图像通常具有色偏和低对比度的特点，并且沉淀物也会导致水下图像模糊。另外，由于水下动物的生活习性，它们通常在图像上挨得很近。...ROIMIX旨在混合两个从多个图像中产生的随机 RIO(x_i,y_i) 和 (x_i,y_i) 来产生新的候选框 (\tilde{x}, \tilde{y}) ，ROIs的大小通常不同，所以我们需要将...x_j 缩放到和 x_{i \cdot} 大小完全一致。...论文选择在ImageNet上预训练的ResNet-101作为骨干网络，并从每张图像中提取128个ROI特征。并对Faster-RCNN使用默认的超参数，评估方法使用平均精度(mAP)。...这些实验进一步说明，ROIMIX具有更好的鲁棒性。结论这篇论文提出了ROIMIX用于水下目标检测的方法。这应该是在多幅图像之间进行ROIs融合以生成不同训练样本的第一项工作。

2.5K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer

最强Vision Trabsformer | 87.7%准确率！CvT:将卷积引入视觉Transformer(文末附论文下载)

继 Swin Transformer 之后，MSRA 开源 Video Swin Transformer，在视频数据集上SOTA

小目标Trick | Detectron2、MMDetection、YOLOv5都通用的小目标检测解决方案

霸榜各大CV任务榜单，Swin Transformer横空出世！

CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架

霸榜多个CV任务，开源仅两天，微软分层ViT模型收获近2k star

Dynamic Pre-training：实现高效、可扩展的一体化(All-in-one)图像恢复

A Comparison of Super-Resolution and Nearest Neighbors Interpolation

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

PVT重磅升级：三点改进，性能大幅提升

详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能？（附论文下载）

End-to-end people detection in crowded scenes

计算机视觉中的Transformer

OUR-GAN：单样本超高分辨率图像生成

计算机视觉中的Transformer

Meta 自监督学习 I-JEPA 论文笔记

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

目标检测——SPPNet【含全网最全翻译】「建议收藏」

URPC 2019 水下目标检测竞赛冠军方案：多图像融合增强

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐