开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么YOLOv3计算调整锚框的偏移值，而不是直接输出边界框的尺寸？

YOLOv3是一种流行的目标检测算法，它通过将图像划分为网格，并在每个网格中预测边界框和类别来实现目标检测。在YOLOv3中，为了更好地适应不同大小和比例的目标，它使用了锚框(anchor box)的概念。

锚框是一种预定义的边界框，具有不同的尺寸和宽高比。YOLOv3通过在每个网格单元中使用多个锚框来检测不同大小和比例的目标。每个锚框都与一个特定的尺寸和宽高比相关联。

相比直接输出边界框的尺寸，YOLOv3选择调整锚框的偏移值的原因有以下几点：

适应不同大小和比例的目标：目标物体在图像中的大小和比例各不相同。通过调整锚框的偏移值，可以更好地适应不同大小和比例的目标，提高目标检测的准确性。
减少参数数量：直接输出边界框的尺寸需要预测每个边界框的宽度和高度，这会增加模型的参数数量。而调整锚框的偏移值只需要预测偏移量，可以减少模型的参数数量，降低模型复杂度。
提高模型的泛化能力：通过调整锚框的偏移值，可以使模型更好地适应不同大小和比例的目标，提高模型的泛化能力，使其在不同场景下都能有效地检测目标。
加速计算速度：调整锚框的偏移值可以减少模型的参数数量和计算量，从而加速目标检测的计算速度。

腾讯云相关产品和产品介绍链接地址：

腾讯云AI计算平台：https://cloud.tencent.com/product/ai
腾讯云云服务器CVM：https://cloud.tencent.com/product/cvm
腾讯云云原生容器服务TKE：https://cloud.tencent.com/product/tke
腾讯云人工智能开放平台AI Lab：https://cloud.tencent.com/product/ailab
腾讯云物联网平台IoT Hub：https://cloud.tencent.com/product/iothub
腾讯云移动开发平台MPS：https://cloud.tencent.com/product/mps

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍！！

每个框都可以属于不同类；预测相对于anchor box的偏移量；多尺度训练（训练模型经过一定迭代后，输入图像尺寸变换）、联合训练机制； YOLOv3 锚框（13*13grids，9 anchors：三种尺度...这与残差层的add操作是不一样的，拼接会扩充张量的维度，而add直接相加不会导致张量维度的改变。最后面的蓝色立方体表示三种尺度的输出。...自适应锚框计算：引入了自适应锚框计算的机制，旨在更好地适应各种目标的尺寸和长宽比例变化。初始锚框定义：首先，根据训练集的标注框，选择初始的锚框。...这可以通过计算目标框与锚框的IoU（交并比）来确定匹配程度，并根据匹配程度调整锚框的尺寸。锚框聚类：根据经过调整的锚框，再次进行聚类，得到一组更适应当前数据集的锚框。...通常，可以根据聚类结果中的锚框长宽比例的分布情况，选择一些具有代表性的锚框。自适应缩放：根据目标尺寸来自动调整输入图像的大小。这样可以更好地适应不同尺度的目标，提高目标检测的准确性。

9.1K13 2

【目标检测】从YOLOv1到YOLOX(理论梳理)

# 这个anchor尺寸不是固定值，对于不同数据集，重新聚类得到的anchor尺寸不一样。...位置宽高计算上面提到，YOLOv2输出的是对于锚框的相对位置，那么如何将这个输出结果转换成对应图中的实际位置。...自适应锚框计算在YOLOv3、YOLOv4中，训练不同的数据集时，计算初始锚框的值是通过单独的K-means聚类得到，在YOLOv5中，这个功能被嵌入到训练过程中，每次训练时，自适应的计算不同训练集中的最佳锚框值...但是YOLOX却要取消锚框，作者认为使用锚框存在两个问题：其一，锚框尺寸根据特定的数据集进行计算，并不通用；其二，使用锚框会在模型检测头那里增加很多额外的计算量。...因此YOLOX不再使用Anchor，而是直接输出四个值，Grid Cell左上角 (c_x, c_y) 的偏移量，以及目标的宽度、高度，公式如下：正负样本匹配策略SimOTA 论文用了半页篇幅介绍其独特的正负样本匹配策略

1.7K2 0

不需要锚框：一种全卷积 One-Stage 目标检测算法(FCOS)

而 IoU 的值极大程度上影响着锚框。下图展示了 Yolov3 当中锚框的作用： ?...也就意味着每个位置(x,y)都可以是正样本或负样本之一，而决定其是否属于正样本的条件为：当其位于基础边界框以内，并且该点计算得到的标签与基础边界框的标签一致。...具体的，我们通过四个值(l*, t*, r*, b*)的回归可以确定边界框的尺寸：并且针对这些值的回归计算也将是整个检测算法的损失函数的一部分现在，由于没有锚框，因此不需要计算锚框和边界框之间的 IoU...相反，被确定为正样本的每个点（位于边界框内并具有正确的类标签）都是边界框尺寸参数回归的一部分。而这可能是即使使用的超参数更少，但FCOS比基于锚框的检测器工作得更好的原因之一。...顾名思义，它是对边界框内正样本像素的中心度进行计算，相当于给网络添加了一个损失，而该损失保证了预测的边界框尽可能的靠近中心。这是为了改善无锚框检测器的性能，使其与基于锚框的检测器不相上下。

1.6K2 0

YOLOV3 原理分析（全网资料整理）

值得注意的是，张量拼接和Res_unit结构的add的操作是不一样的，张量拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。 Yolo_body一共有252层。...预测出b-box中心点相对于网格单元左上角的相对坐标。直接预测出（tx，ty，tw，th，t0），然后通过以下坐标偏移公式计算得到b-box的位置大小和confidence。...如果边界框与真实框的重叠度比之前的任何其他边界框都要好，则该值应该为1。如果边界框不是最好的，但确实与真实对象的重叠超过某个阈值(Yolo v3中这里设定的阈值是0.5)，那么就忽略这次预测。...输出处理我们的网络生成10647个锚框，而图像中只有一个狗，怎么将10647个框减少为1个呢？...首先，我们通过物体分数过滤一些锚框，例如低于阈值（假设0.5）的锚框直接舍去；然后，使用NMS（非极大值抑制）解决多个锚框检测一个物体的问题（例如红色框的3个锚框检测一个框或者连续的cell检测相同的物体

4831 0

YOLOV3 原理分析（全网资料整理）

值得注意的是，张量拼接和Res_unit结构的add的操作是不一样的，张量拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。 Yolo_body一共有252层。...预测出b-box中心点相对于网格单元左上角的相对坐标。直接预测出（tx，ty，tw，th，t0），然后通过以下坐标偏移公式计算得到b-box的位置大小和confidence。...如果边界框与真实框的重叠度比之前的任何其他边界框都要好，则该值应该为1。如果边界框不是最好的，但确实与真实对象的重叠超过某个阈值(Yolo v3中这里设定的阈值是0.5)，那么就忽略这次预测。...输出处理我们的网络生成10647个锚框，而图像中只有一个狗，怎么将10647个框减少为1个呢？...首先，我们通过物体分数过滤一些锚框，例如低于阈值（假设0.5）的锚框直接舍去；然后，使用NMS（非极大值抑制）解决多个锚框检测一个物体的问题（例如红色框的3个锚框检测一个框或者连续的cell检测相同的物体

1K0 0

【深度学习】目标检测

（相对于真实物体框的偏移）（4）将锚点框与Ground Truth中的标签框进行 IoU 对比，如果其 IoU 高于某个阈值，则该锚点框标定为前景框，否则属于背景框；对于前景框，还要计算其与真实标签框的...4个位置偏移；将这个标注好的锚点框（带有前背景类别和位置偏移标注）与3中卷积网络层的两个输出进行loss比较(类别：CrossEntrpy loss 和位置回归：smooth L1 loss)...，从而学习到如何提取前景框（5）学习到如何提取前景框后，就根据 rpn_cls_score 层的输出概率值确定前景框；位置偏移值则被整合到锚点框的坐标中以得到实际的框的坐标；这样子就得到了前景框，起到了...通过对比实验，发现用聚类分析得到的先验框比手动选择的先验框有更高的平均IOU值，这使得模型更容易训练学习。 VOC和COCO的聚类边界框尺寸。...自对抗训练代表了一种新的数据增强技术，操作在两个向前后阶段。在第一阶段，神经网络改变原始图像而不是网络权值。

2K1 0

一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇（含答案）

(注意回归的不是坐标和宽高，而是由它们计算得到的偏移量) ti 和 ti* 分别为网络的预测值和回归的目标在训练RPN时需要准备好目标t*。...为了解决这个问题，可以使用softNMS（基本思想：用稍低一点的分数来代替原有的分数，而不是直接置零） 5.Faster R-CNN是如何解决正负样本不平衡的问题？...Faster RCNN怎么筛选正负anchor 我们给两种锚点分配一个正标签：（i）具有与实际边界框的重叠最高交并比（IoU）的锚点，（ii）具有与实际边界框的重叠超过0.7 IoU的锚点。...YOLOv1：YOLOv1的核心思想就是利用整张图作为网络的输入，直接在输出层回归 bounding box（边界框）的位置及其所属的类别。...CTPN只能检测水平文本，而RRPN可以检测任意方向的文本，因为CTPN的提议框是水平的，而RRPN的提议框带有旋转角度。为什么提出旋转的提议框呢？

8332 0

网易面试原题｜简述Yolo系列网络的发展史

直接位置预测YOLOv2沿用v1版本的方法：预测边界框中心点相对于对应cell左上角位置的相对偏移量，为了将边界框中心点约束在当前cell中，使用sigmoid函数处理偏移量，这样预测值都在范围内。...根据边界框预测的4个偏移值，可以使用如下公式来计算边界框实际中心位置和长宽： ? 其中，为cell的左上角坐标。在上图中，当前的cell的左上角坐标为。...由于sigmoid函数的处理，边界框的中心位置会被约束在当前cell的内部，防止偏移过多，然后和是先验框的宽度与高度，它们的值也是相对于特征图（这里是，我们把特征图的长宽记作H，W)大小的，...然后，YOLOv3将第61层网络输出的具有更高分辨率的特征图（尺寸为 )，并使用concat将其与上采样特征图合并。...Head头为确定先验框priors，YOLOv3仍然应用k均值聚类。然后它预先选择9个聚类簇。对于COCO，锚定框的宽度和高度为。这应该是按照输入图像的尺寸是计算得到的。

6274 0

简述Yolo系列网络的发展史

我们可以看到，对于中心点的损失直接用了均方误差，但是对于宽高为什么用了平方根呢？这里是这样的，我们先来看下图： ?...直接位置预测YOLOv2沿用v1版本的方法：预测边界框中心点相对于对应cell左上角位置的相对偏移量，为了将边界框中心点约束在当前cell中，使用sigmoid函数处理偏移量，这样预测值都在范围内。...根据边界框预测的4个偏移值，可以使用如下公式来计算边界框实际中心位置和长宽： ? 其中，为cell的左上角坐标。在上图中，当前的cell的左上角坐标为。...然后，YOLOv3将第61层网络输出的具有更高分辨率的特征图（尺寸为 )，并使用concat将其与上采样特征图合并。...Head头为确定先验框priors，YOLOv3仍然应用k均值聚类。然后它预先选择9个聚类簇。对于COCO，锚定框的宽度和高度为。这应该是按照输入图像的尺寸是计算得到的。

1.4K4 0

教程 | 单级式目标检测方法概述：YOLO与SSD

边界框（以及锚框概念） YOLO 模型的第一个迭代版本是直接预测描述一个边界框的所有 4 个值。...我们不再直接预测边界框的尺寸，而是重新形式化了我们的任务，从而只需简单预测与我们的边界框先验尺寸的偏移量，这样我们就可以优化我们的预测边界框尺寸了。这种处理方式能让这一预测任务更容易学习。 ?...但是，在计算损失时，我们将不会包含有较高 IoU 分数（超过某个阈值），但不是最高分数的边界框。简单来说，只是因为一个优良预测不是最佳预测就惩罚它是不合理的。...对于每个边界框，我们都会预测其在边界框坐标（x 和 y）以及尺寸（宽度和高度）上离锚框的偏移量。我们将使用通过一个 Smooth L1 损失训练的 ReLU 激活。...但是，我们也会将基本真值框与 IoU 超过某个定义阈值（0.5）的任何其它锚框进行匹配，从而不因为这些锚框并不是最佳的而惩罚这些优良预测。

7491 0

史上最详细的Yolov3边框预测分析

图1 最终得到的边框坐标值是bx,by,bw,bh即边界框bbox相对于feature map的位置和大小，是我们需要的预测输出坐标。...但我们网络实际上的学习目标是tx,ty,tw,th这４个offsets，其中tx,ty是预测的坐标偏移值，tw,th是尺度缩放，有了这４个offsets，自然可以根据之前的公式去求得真正需要的bx,by...至于为何不直接学习bx,by,bw,bh呢？因为YOLO 的输出是一个卷积特征图，包含沿特征图深度的边界框属性。边界框属性由彼此堆叠的单元格预测得出。...这种格式对于输出处理过程（例如通过目标置信度进行阈值处理、添加对中心的网格偏移、应用锚点等）很不方便，因此我们求偏移量即可。...).然后可以转为x1,y1,x2,y2来算iou,通过score滤去和执行nms去掉绝大多数多余的框，计算loss等操作了。

3K4 1

【史上最有趣论文】物体检测经典模型YOLO新升级，就看一眼，速度提升 3 倍！

YOLOv3使用逻辑回归来预测每个边界框的 objectness score。如果边界框比之前的任何其他边界框都要与ground truth的对象重叠，则该值应该为1。...图2: 具有dimension priors和location prediction的边界框。我们预测了框的宽度和高度，作为cluster centroids的偏移量。...由于新的多尺度预测方法，我们看到YOLOv3具有相对较高的APS性能。但是，它在中等尺寸和更大尺寸的物体上的表现相对较差。...我们尝试使用常规的anchor box预测机制，可以使用线性激活将x，y的偏移预测为box的宽度或高度的倍数。我们发现这种方法降低了模型的稳定性，并且效果不佳。线性x，y预测，而不是逻辑预测。...我们尝试使用线性激活来直接预测x，y的偏移，而不是用逻辑激活。这导致了MAP的下降。 Focal loss。我们尝试使用Focal loss。这一方法使mAP降低了2点左右。

1.3K8 0

目标检测综述

在YOLOv1中，最后是使用全连接层来生成bounding box的坐标，然而使用全连接的缺点在于丢失了特征图的空间信息，造成定位不准，作者借鉴了Faster Rcnn中锚框的思想，利用锚框直接在卷积特征图滑窗采样...逻辑回归的使用：在YOLOv2中，每个cell是直接通过网络回归预测b-box坐标和置信度的，YOLOv3则将置信度和坐标分开预测，坐标预测还是通过网络进行预测，而置信度则是单独通过逻辑回归进行预测。...，使用单元的特征向量预测锚框的二元类别（foreground-background）以及位置坐标，最后使用非极大值抑制去除相似重复的目标边界框。...3的特征图以及这5个特征图生成锚盒，预测类别与边界框，方法与FasterRCNN类似，对于宽高大的特征图，感受野小，锚框多，适合检测小的物体，而对于宽高小的特征图，感受野大，锚框少，则适合检测大的物体，...Two-stage方法会筛选b-box（RPN减少了background的数目）并且训练过程会设置foreground-background的比例，类别不平衡的问题要轻许多，而one-stage的方法则是直接回归最后的边界框预测

1K3 0

【史上最有趣论文】物体检测经典模型YOLO新升级，就看一眼，速度提升 3 倍！

YOLOv3使用逻辑回归来预测每个边界框的 objectness score。如果边界框比之前的任何其他边界框都要与ground truth的对象重叠，则该值应该为1。...图2: 具有dimension priors和location prediction的边界框。我们预测了框的宽度和高度，作为cluster centroids的偏移量。...由于新的多尺度预测方法，我们看到YOLOv3具有相对较高的APS性能。但是，它在中等尺寸和更大尺寸的物体上的表现相对较差。...我们尝试使用常规的anchor box预测机制，可以使用线性激活将x，y的偏移预测为box的宽度或高度的倍数。我们发现这种方法降低了模型的稳定性，并且效果不佳。线性x，y预测，而不是逻辑预测。...我们尝试使用线性激活来直接预测x，y的偏移，而不是用逻辑激活。这导致了MAP的下降。 Focal loss。我们尝试使用Focal loss。这一方法使mAP降低了2点左右。

89515 0

零基础入门深度学习（十一）：目标检测之YOLOv3算法实现下篇

objectness需要被标注为-1，通过下面的程序，对label_objectness进行处理，将IoU大于阈值，但又不是正样本的那些锚框标注为-1。...越往后的特征图上用到的锚框尺寸也越大，能捕捉到大尺寸目标的信息；越往前的特征图上锚框尺寸越小，能捕捉到小尺寸目标的信息。..., # 锚框尺寸，包含[w0, h0, w1, h1, ..., w8, h8]共9个锚框的尺寸 anchor_mask=anchor_mask_i, # 筛选锚框的...图21：端到端训练流程预测过程可以分为两步：通过网络输出计算出预测框位置和所属类别的得分。使用非极大值抑制来消除重叠较大的预测框。...函数读取指定的图片，输入网络并计算出预测框和得分，然后使用多分类非极大值抑制消除冗余的框。

1.2K3 0

目标检测（Object Detection）

SPPnets，其创新点在于只进行一次图像特征提取（而不是每个候选区域计算一次），然后根据算法，将候选区域特征图映射到整张图片特征图中。...通过对比实验，发现用聚类分析得到的先验框比手动选择的先验框有更高的平均IOU值，这使得模型更容易训练学习。 VOC和COCO的聚类边界框尺寸。...右图显示了VOC和COCO的相对中心。这两种先验都赞成更薄更高的边界框，而COCO比VOC在尺寸上有更大的变化。（5）New Network（新的网络）。...Faster R-CNN使用anchor boxes预测边界框相对先验框的偏移量，由于没有对偏移量进行约束，每个位置预测的边界框可以落在图片任何位置，会导致模型不稳定，加长训练时间。...我们调整网络的尺寸并继续训练）。

1.6K1 0

深度学习500问——Chapter08：目标检测（1）

边界框回归（Bounding boxes Regression）。训练将输出一些校正因子的线性回归分类器。...Rol Pooling 是Pooling是一种，而且是针对Rol的Pooling，其特点是输入特征图尺寸不固定，但是输出特征图尺寸固定（如7x7）....ZF网络最后会输出256个值，它们将馈送到两个独立的全连接层，以预测边界框和两个objectness分数，这两个objectness分数度量了边界框是否包含目标。...因此，Faster R-CNN不会创建随机边界框。相反，它会预测一些与左上角名为锚点的参考框相关的偏移量（如x，y）。我们限制这些偏移量的值，因为我们的猜想仍然类似于锚点。...Faster R-CNN使用更多的锚点它部署9个锚点框：3个不同宽高比的3个不同大小的锚点（Anchor）框。

3162 0

CNN+transformer入门学习

最后，对于被分类为目标的候选区域，R-CNN使用回归器来精确调整其边界框，以更准确地包围目标。 anchor box思想：用于提高检测算法对于不同尺度和不同形状目标的泛化能力。...(维度聚类)，作为锚框 3.CA-Resnet模块设计（A/B），替换YOLOv3原有的残差模块 4.CA模块改进：使用平均池化操作进行图像数据的处理，保存了更多的背景信息，实验设计四次对比， 1....基于F-YOLOv3模型的人数统计方法 1.自建数据集，这个数据集主要特点是包含了动态信息，以MKV格式，8秒一帧输出成相应图像序列 2.聚类候选锚框，设置不同的锚框尺寸：(11×20)，(19×32)...104 尺寸特征图的输出，取消了13×13尺寸特征图输出，最终输出26×26、52×52、104×104三种尺寸的特征图。...对于预测框的x,y,w,h进行了计算注释：IOU:假设我们有一个预测的边界框（或分割结果）和一个真实的边界框（或分割标注），我们可以计算它们的交集面积和并集面积。

1151 0

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有

在网络训练中，网络在初始锚框的基础上输出预测框，进而和Ground Truth进行比对，计算两者差距，再反向更新，迭代网络参数。...# r为目标wh和锚框wh的比值，比值在0.25到4之间的则采用该种锚框预测目标 # 计算当前tartget的wh和anchor的wh比值 # 如果最大比值大于预设值...为什么要学习偏移而不是实际值？ Anchor已经粗略地“框住了”输入图像中的目标，明显的一个问题是，框的不够准确。因为受限于Anchor的生成方式，Anchor的坐标永远都是固定的那几个。...所以，如果我们预测相对于Anchor的offset，那么，就可以通过预测的offset调整锚框位置，从而得到更精准的bounding box。 为什么要学习偏移系数而不是偏移量？...其次，对cx和cy除以anchor的宽和高的处理是为了做尺度归一化。例如，大的box的绝对偏移量一般较大，而小的box的绝对偏移量一般较小，除以宽和高消除这种影响。即两个框大小不一，但相对值却一致。

3.4K4 0

YOLO家族系列模型的演变：从v1到v8（上）

它是与 MaxPool 交错的级联卷积层。级联以两个完全连接的层作为输出。作者训练了一个更快版本的 Fast YOLO 架构，包含更少的卷积层（9 个而不是 24 个）。...在这个架构中，原始图片被分成 S x S 个单元格（最初 7 x 7），每个单元格（cells）预测 B 个边界框（bbox）和这些边界框中任何对象存在的置信度，以及对象所属分类C的概率。...在单元格数量为偶数的情况下，中心可能位于四个中央单元格中的某个位置，这会降低网络的置信度。而置信度值表示模型对给定的边界框包含某个对象的置信度以及边界框预测其位置的准确度。...(x, y) — bbox-a 中心在单元格内的坐标，w 和 h — bbox-a 的宽度和高度相对于整个图片的尺寸，即归一化从 0-1表示. 置信度是 bbox 预测值和真实值之间的 IoU。...IoU Aware — 在 YOLOv3 中，对于置信度值，类概率乘以对象值，并没有提高定位精度。为了解决这个问题，添加了一个 IoU 预测分支来测量定位精度。

5.9K6 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭