首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么YOLOv3计算调整锚框的偏移值,而不是直接输出边界框的尺寸?

YOLOv3是一种流行的目标检测算法,它通过将图像划分为网格,并在每个网格中预测边界框和类别来实现目标检测。在YOLOv3中,为了更好地适应不同大小和比例的目标,它使用了锚框(anchor box)的概念。

锚框是一种预定义的边界框,具有不同的尺寸和宽高比。YOLOv3通过在每个网格单元中使用多个锚框来检测不同大小和比例的目标。每个锚框都与一个特定的尺寸和宽高比相关联。

相比直接输出边界框的尺寸,YOLOv3选择调整锚框的偏移值的原因有以下几点:

  1. 适应不同大小和比例的目标:目标物体在图像中的大小和比例各不相同。通过调整锚框的偏移值,可以更好地适应不同大小和比例的目标,提高目标检测的准确性。
  2. 减少参数数量:直接输出边界框的尺寸需要预测每个边界框的宽度和高度,这会增加模型的参数数量。而调整锚框的偏移值只需要预测偏移量,可以减少模型的参数数量,降低模型复杂度。
  3. 提高模型的泛化能力:通过调整锚框的偏移值,可以使模型更好地适应不同大小和比例的目标,提高模型的泛化能力,使其在不同场景下都能有效地检测目标。
  4. 加速计算速度:调整锚框的偏移值可以减少模型的参数数量和计算量,从而加速目标检测的计算速度。

腾讯云相关产品和产品介绍链接地址:

  • 腾讯云AI计算平台:https://cloud.tencent.com/product/ai
  • 腾讯云云服务器CVM:https://cloud.tencent.com/product/cvm
  • 腾讯云云原生容器服务TKE:https://cloud.tencent.com/product/tke
  • 腾讯云人工智能开放平台AI Lab:https://cloud.tencent.com/product/ailab
  • 腾讯云物联网平台IoT Hub:https://cloud.tencent.com/product/iothub
  • 腾讯云移动开发平台MPS:https://cloud.tencent.com/product/mps
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!

每个都可以属于不同类;预测相对于anchor box偏移量;多尺度训练(训练模型经过一定迭代后,输入图像尺寸变换)、联合训练机制; YOLOv3 (13*13grids,9 anchors:三种尺度...这与残差层add操作是不一样,拼接会扩充张量维度,add直接相加不会导致张量维度改变。 最后面的蓝色立方体表示三种尺度输出。...自适应计算:引入了自适应计算机制,旨在更好地适应各种目标的尺寸和长宽比例变化。 初始框定义:首先,根据训练集标注,选择初始。...这可以通过计算目标IoU(交并比)来确定匹配程度,并根据匹配程度调整尺寸聚类:根据经过调整,再次进行聚类,得到一组更适应当前数据集。...通常,可以根据聚类结果中长宽比例分布情况,选择一些具有代表性。 自适应缩放:根据目标尺寸来自动调整输入图像大小。这样可以更好地适应不同尺度目标,提高目标检测准确性。

9.1K132

【目标检测】从YOLOv1到YOLOX(理论梳理)

# 这个anchor尺寸不是固定,对于不同数据集,重新聚类得到anchor尺寸不一样。...位置宽高计算 上面提到,YOLOv2输出是对于相对位置,那么如何将这个输出结果转换成对应图中实际位置。...自适应计算YOLOv3、YOLOv4中,训练不同数据集时,计算初始是通过单独K-means聚类得到,在YOLOv5中,这个功能被嵌入到训练过程中,每次训练时,自适应计算不同训练集中最佳...但是YOLOX却要取消,作者认为使用存在两个问题:其一,尺寸根据特定数据集进行计算,并不通用;其二,使用会在模型检测头那里增加很多额外计算量。...因此YOLOX不再使用Anchor,而是直接输出四个,Grid Cell左上角 (c_x, c_y) 偏移量,以及目标的宽度、高度,公式如下: 正负样本匹配策略SimOTA 论文用了半页篇幅介绍其独特正负样本匹配策略

1.7K20

不需要:一种全卷积 One-Stage 目标检测算法(FCOS)

IoU 极大程度上影响着。下图展示了 Yolov3 当中作用: ?...也就意味着每个位置(x,y)都可以是正样本或负样本之一,决定其是否属于正样本条件为:当其位于基础边界以内,并且该点计算得到标签与基础边界标签一致。...具体,我们通过四个(l*, t*, r*, b*)回归可以确定边界尺寸: 并且针对这些回归计算也将是整个检测算法损失函数一部分 现在,由于没有,因此不需要计算边界之间 IoU...相反,被确定为正样本每个点(位于边界框内并具有正确类标签)都是边界尺寸参数回归一部分。而这可能是即使使用超参数更少,但FCOS比基于检测器工作得更好原因之一。...顾名思义,它是对边界框内正样本像素中心度进行计算,相当于给网络添加了一个损失,该损失保证了预测边界尽可能靠近中心。这是为了改善无检测器性能,使其与基于检测器不相上下。

1.6K20

YOLOV3 原理分析(全网资料整理)

值得注意是,张量拼接和Res_unit结构add操作是不一样,张量拼接会扩充张量维度,add只是直接相加不会导致张量维度改变。 Yolo_body一共有252层。...预测出b-box中心点相对于网格单元左上角相对坐标。直接预测出(tx,ty,tw,th,t0),然后通过以下坐标偏移公式计算得到b-box位置大小和confidence。...如果边界与真实重叠度比之前任何其他边界都要好,则该应该为1。如果边界不是最好,但确实与真实对象重叠超过某个阈值(Yolo v3中这里设定阈值是0.5),那么就忽略这次预测。...输出处理 我们网络生成10647个图像中只有一个狗,怎么将10647个减少为1个呢?...首先,我们通过物体分数过滤一些,例如低于阈值(假设0.5)直接舍去;然后,使用NMS(非极大抑制)解决多个检测一个物体问题(例如红色3个检测一个或者连续cell检测相同物体

48310

YOLOV3 原理分析(全网资料整理)

值得注意是,张量拼接和Res_unit结构add操作是不一样,张量拼接会扩充张量维度,add只是直接相加不会导致张量维度改变。 Yolo_body一共有252层。...预测出b-box中心点相对于网格单元左上角相对坐标。直接预测出(tx,ty,tw,th,t0),然后通过以下坐标偏移公式计算得到b-box位置大小和confidence。...如果边界与真实重叠度比之前任何其他边界都要好,则该应该为1。如果边界不是最好,但确实与真实对象重叠超过某个阈值(Yolo v3中这里设定阈值是0.5),那么就忽略这次预测。...输出处理 我们网络生成10647个图像中只有一个狗,怎么将10647个减少为1个呢?...首先,我们通过物体分数过滤一些,例如低于阈值(假设0.5)直接舍去;然后,使用NMS(非极大抑制)解决多个检测一个物体问题(例如红色3个检测一个或者连续cell检测相同物体

1K00

【深度学习】目标检测

(相对于真实物体偏移) (4)将与Ground Truth中标签进行 IoU 对比,如果其 IoU 高于某个阈值,则该标定为前景,否则属于背景;对于前景,还要计算其与真实标签...4个位置偏移;将这个标注好(带有 前背景类别 和 位置偏移 标注)与3中卷积网络层两个输出进行loss比较(类别:CrossEntrpy loss 和 位置回归:smooth L1 loss)...,从而学习到如何提取前景 (5)学习到如何提取前景后,就根据 rpn_cls_score 层输出概率确定前景;位置偏移则被整合到坐标中以得到实际坐标;这样子就得到了前景,起到了...通过对比实验,发现用聚类分析得到先验比手动选择先验有更高平均IOU,这使得模型更容易训练学习。 VOC和COCO聚类边界尺寸。...自对抗训练代表了一种新数据增强技术,操作在两个向前后阶段。在第一阶段,神经网络改变原始图像不是网络权

2K10

一位算法工程师从30+场秋招面试中总结出超强面经——目标检测篇(含答案)

(注意回归不是坐标和宽高,而是由它们计算得到偏移量) ti 和 ti* 分别为网络预测和回归目标 在训练RPN时需要准备好目标t*。...为了解决这个问题,可以使用softNMS(基本思想:用稍低一点分数来代替原有的分数,不是直接置零) 5.Faster R-CNN是如何解决正负样本不平衡问题?...Faster RCNN怎么筛选正负anchor 我们给两种点分配一个正标签:(i)具有与实际边界重叠最高交并比(IoU)点, (ii)具有与实际边界重叠超过0.7 IoU点。...YOLOv1:YOLOv1核心思想就是利用整张图作为网络输入,直接输出层回归 bounding box(边界位置及其所属类别。...CTPN只能检测水平文本,RRPN可以检测任意方向文本,因为CTPN提议是水平RRPN提议带有旋转角度。为什么提出旋转提议呢?

83320

网易面试原题|简述Yolo系列网络发展史

直接位置预测YOLOv2沿用v1版本方法:预测边界中心点相对于对应cell左上角位置相对偏移量,为了将边界中心点约束在当前cell中,使用sigmoid函数处理偏移量,这样预测都在 范围内。...根据边界预测4个偏移,可以使用如下公式来计算边界实际中心位置和长宽: ? 其中, 为cell左上角坐标。在上图中,当前cell左上角坐标为 。...由于sigmoid函数处理,边界中心位置会被约束在当前cell内部,防止偏移过多,然后 和 是先验宽度与高度,它们也是相对于特征图(这里是 ,我们把特征图长宽记作H,W)大小,...然后,YOLOv3将第61层网络输出具有更高分辨率特征图(尺寸为 ),并使用concat将其与上采样特征图合并。...Head头 为确定先验priors,YOLOv3仍然应用k均值聚类。然后它预先选择9个聚类簇。对于COCO,锚定宽度和高度为 。这应该是按照输入图像尺寸计算得到

62740

简述Yolo系列网络发展史

我们可以看到,对于中心点损失直接用了均方误差,但是对于宽高为什么用了平方根呢?这里是这样,我们先来看下图: ?...直接位置预测YOLOv2沿用v1版本方法:预测边界中心点相对于对应cell左上角位置相对偏移量,为了将边界中心点约束在当前cell中,使用sigmoid函数处理偏移量,这样预测都在 范围内。...根据边界预测4个偏移,可以使用如下公式来计算边界实际中心位置和长宽: ? 其中, 为cell左上角坐标。在上图中,当前cell左上角坐标为 。...然后,YOLOv3将第61层网络输出具有更高分辨率特征图(尺寸为 ),并使用concat将其与上采样特征图合并。...Head头 为确定先验priors,YOLOv3仍然应用k均值聚类。然后它预先选择9个聚类簇。对于COCO,锚定宽度和高度为 。这应该是按照输入图像尺寸计算得到

1.4K40

教程 | 单级式目标检测方法概述:YOLO与SSD

边界(以及概念) YOLO 模型第一个迭代版本是直接预测描述一个边界所有 4 个。...我们不再直接预测边界尺寸,而是重新形式化了我们任务,从而只需简单预测与我们边界先验尺寸偏移量,这样我们就可以优化我们预测边界尺寸了。这种处理方式能让这一预测任务更容易学习。 ?...但是,在计算损失时,我们将不会包含有较高 IoU 分数(超过某个阈值),但不是最高分数边界。简单来说,只是因为一个优良预测不是最佳预测就惩罚它是不合理。...对于每个边界,我们都会预测其在边界坐标(x 和 y)以及尺寸(宽度和高度)上离偏移量。我们将使用通过一个 Smooth L1 损失训练 ReLU 激活。...但是,我们也会将基本真值与 IoU 超过某个定义阈值(0.5)任何其它进行匹配,从而不因为这些不是最佳惩罚这些优良预测。

74910

史上最详细Yolov3边框预测分析

图1 最终得到边框坐标值是bx,by,bw,bh即边界bbox相对于feature map位置和大小,是我们需要预测输出坐标。...但我们网络实际上学习目标是tx,ty,tw,th这4个offsets,其中tx,ty是预测坐标偏移,tw,th是尺度缩放,有了这4个offsets,自然可以根据之前公式去求得真正需要bx,by...至于为何不直接学习bx,by,bw,bh呢?因为YOLO 输出是一个卷积特征图,包含沿特征图深度边界属性。边界属性由彼此堆叠单元格预测得出。...这种格式对于输出处理过程(例如通过目标置信度进行阈值处理、添加对中心网格偏移、应用点等)很不方便,因此我们求偏移量即可。...).然后可以转为x1,y1,x2,y2来算iou,通过score滤去和执行nms去掉绝大多数多余计算loss等操作了。

3K41

【史上最有趣论文】物体检测经典模型YOLO新升级,就看一眼,速度提升 3 倍!

YOLOv3使用逻辑回归来预测每个边界 objectness score。如果边界比之前任何其他边界都要与ground truth对象重叠,则该应该为1。...图2: 具有dimension priors和location prediction边界。我们预测了宽度和高度,作为cluster centroids偏移量。...由于新多尺度预测方法,我们看到YOLOv3具有相对较高APS性能。但是,它在中等尺寸和更大尺寸物体上表现相对较差。...我们尝试使用常规anchor box预测机制,可以使用线性激活将x,y偏移预测为box宽度或高度倍数。我们发现这种方法降低了模型稳定性,并且效果不佳。 线性x,y预测,不是逻辑预测。...我们尝试使用线性激活来直接预测x,y偏移不是用逻辑激活。这导致了MAP下降。 Focal loss。我们尝试使用Focal loss。这一方法使mAP降低了2点左右。

1.3K80

目标检测综述

在YOLOv1中,最后是使用全连接层来生成bounding box坐标,然而使用全连接缺点在于丢失了特征图空间信息,造成定位不准,作者借鉴了Faster Rcnn中思想,利用直接在卷积特征图滑窗采样...逻辑回归使用:在YOLOv2中,每个cell是直接通过网络回归预测b-box坐标和置信度YOLOv3则将置信度和坐标分开预测,坐标预测还是通过网络进行预测,置信度则是单独通过逻辑回归进行预测。...,使用单元特征向量预测二元类别(foreground-background)以及位置坐标,最后使用非极大抑制去除相似重复目标边界。...3特征图以及这5个特征图生成盒,预测类别与边界,方法与FasterRCNN类似,对于宽高大特征图,感受野小,多,适合检测小物体,而对于宽高小特征图,感受野大,少,则适合检测大物体,...Two-stage方法会筛选b-box(RPN减少了background数目)并且训练过程会设置foreground-background比例,类别不平衡问题要轻许多,one-stage方法则是直接回归最后边界预测

1K30

【史上最有趣论文】物体检测经典模型YOLO新升级,就看一眼,速度提升 3 倍!

YOLOv3使用逻辑回归来预测每个边界 objectness score。如果边界比之前任何其他边界都要与ground truth对象重叠,则该应该为1。...图2: 具有dimension priors和location prediction边界。我们预测了宽度和高度,作为cluster centroids偏移量。...由于新多尺度预测方法,我们看到YOLOv3具有相对较高APS性能。但是,它在中等尺寸和更大尺寸物体上表现相对较差。...我们尝试使用常规anchor box预测机制,可以使用线性激活将x,y偏移预测为box宽度或高度倍数。我们发现这种方法降低了模型稳定性,并且效果不佳。 线性x,y预测,不是逻辑预测。...我们尝试使用线性激活来直接预测x,y偏移不是用逻辑激活。这导致了MAP下降。 Focal loss。我们尝试使用Focal loss。这一方法使mAP降低了2点左右。

895150

零基础入门深度学习(十一):目标检测之YOLOv3算法实现下篇

objectness需要被标注为-1,通过下面的程序,对label_objectness进行处理,将IoU大于阈值,但又不是正样本那些标注为-1。...越往后特征图上用到尺寸也越大,能捕捉到大尺寸目标的信息;越往前特征图上尺寸越小,能捕捉到小尺寸目标的信息。..., # 尺寸,包含[w0, h0, w1, h1, ..., w8, h8]共9个尺寸 anchor_mask=anchor_mask_i, # 筛选...图21:端到端训练流程 预测过程可以分为两步: 通过网络输出计算出预测位置和所属类别的得分。 使用非极大抑制来消除重叠较大预测。...函数读取指定图片,输入网络并计算出预测和得分,然后使用多分类非极大抑制消除冗余

1.2K30

目标检测(Object Detection)

SPPnets,其创新点在于只进行一次图像特征提取(不是每个候选区域计算一次),然后根据算法,将候选区域特征图映射到整张图片特征图中。...通过对比实验,发现用聚类分析得到先验比手动选择先验有更高平均IOU,这使得模型更容易训练学习。 VOC和COCO聚类边界尺寸。...右图显示了VOC和COCO相对中心。这两种先验都赞成更薄更高边界COCO比VOC在尺寸上有更大变化。 (5)New Network(新网络)。...Faster R-CNN使用anchor boxes预测边界相对先验偏移量,由于没有对偏移量进行约束,每个位置预测边界可以落在图片任何位置,会导致模型不稳定,加长训练时间。...我们调整网络尺寸并继续训练)。

1.6K10

深度学习500问——Chapter08:目标检测(1)

边界回归(Bounding boxes Regression)。训练将输出一些校正因子线性回归分类器。...Rol Pooling 是Pooling是一种,而且是针对RolPooling,其特点是输入特征图尺寸不固定,但是输出特征图尺寸固定(如7x7)....ZF网络最后会输出256个,它们将馈送到两个独立全连接层,以预测边界和两个objectness分数,这两个objectness分数度量了边界是否包含目标。...因此,Faster R-CNN不会创建随机边界。相反,它会预测一些与左上角名为参考相关偏移量(如x,y)。我们限制这些偏移,因为我们猜想仍然类似于点。...Faster R-CNN使用更多点 它部署9个:3个不同宽高比3个不同大小点(Anchor)

31620

CNN+transformer入门学习

最后,对于被分类为目标的候选区域,R-CNN使用回归器来精确调整边界,以更准确地包围目标。 anchor box思想:用于提高检测算法对于不同尺度和不同形状目标的泛化能力。...(维度聚类),作为 3.CA-Resnet模块设计(A/B),替换YOLOv3原有的残差模块 4.CA模块改进:使用平均池化操作进行图像数据处理,保存了更多背景信息, 实验设计 四次对比, 1....基于F-YOLOv3模型的人数统计方法 1.自建数据集,这个数据集主要特点是包含了动态信息,以MKV格式,8秒一帧输出成相应图像序列 2.聚类候选,设置不同尺寸:(11×20),(19×32)...104 尺寸特征图输出,取消了13×13尺寸特征图输出,最终输出26×26、52×52、104×104三种尺寸特征图。...对于预测x,y,w,h进行了计算 注释:IOU:假设我们有一个预测边界(或分割结果)和一个真实边界(或分割标注),我们可以计算它们交集面积和并集面积。

11510

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有

在网络训练中,网络在初始基础上输出预测,进而和Ground Truth进行比对,计算两者差距,再反向更新,迭代网络参数。...# r为目标wh和wh比值,比值在0.25到4之间则采用该种预测目标 # 计算当前tartgetwh和anchorwh比值 # 如果最大比值大于预设...为什么要学习偏移不是实际? Anchor已经粗略地“框住了”输入图像中目标,明显一个问题是,不够准确。因为受限于Anchor生成方式,Anchor坐标永远都是固定那几个。...所以,如果我们预测相对于Anchoroffset,那么,就可以通过预测offset调整位置,从而得到更精准bounding box。 为什么要学习偏移系数不是偏移量?...其次,对cx和cy除以anchor宽和高处理是为了做尺度归一化。例如,大box绝对偏移量一般较大,box绝对偏移量一般较小,除以宽和高消除这种影响。即两个大小不一,但相对却一致。

3.4K40

YOLO家族系列模型演变:从v1到v8(上)

它是与 MaxPool 交错级联卷积层。级联以两个完全连接层作为输出。 作者训练了一个更快版本 Fast YOLO 架构,包含更少卷积层(9 个不是 24 个)。...在这个架构中,原始图片被分成 S x S 个单元格(最初 7 x 7),每个单元格(cells)预测 B 个边界(bbox)和这些边界中任何对象存在置信度,以及对象所属分类C概率。...在单元格数量为偶数情况下,中心可能位于四个中央单元格中某个位置,这会降低网络置信度。 置信度表示模型对给定边界包含某个对象置信度以及边界预测其位置准确度。...(x, y) — bbox-a 中心在单元格内坐标,w 和 h — bbox-a 宽度和高度相对于整个图片尺寸,即归一化从 0-1表示. 置信度是 bbox 预测和真实之间 IoU。...IoU Aware — 在 YOLOv3 中,对于置信度,类概率乘以对象,并没有提高定位精度。为了解决这个问题,添加了一个 IoU 预测分支来测量定位精度。

5.9K60
领券