开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在处理过程中从边界框中获取最小和最大点？

在处理过程中从边界框中获取最小和最大点的方法可以通过以下步骤实现：

边界框（Bounding Box）是指在计算机视觉和图像处理中用于表示物体位置和大小的矩形框。通常，边界框由左上角和右下角两个点确定。
要从边界框中获取最小和最大点，首先需要知道边界框的坐标表示方式。常见的表示方式有两种：(x_min, y_min, x_max, y_max)和(x, y, width, height)。
如果边界框的坐标表示方式是(x_min, y_min, x_max, y_max)，则最小点为左上角的坐标(x_min, y_min)，最大点为右下角的坐标(x_max, y_max)。
如果边界框的坐标表示方式是(x, y, width, height)，则最小点为左上角的坐标(x, y)，最大点为右下角的坐标(x + width, y + height)。
在实际开发中，可以使用编程语言和相关的图像处理库来实现从边界框中获取最小和最大点的操作。例如，在Python中可以使用OpenCV、PIL等库来处理图像和边界框。
边界框的获取最小和最大点的方法在目标检测、图像分割、人脸识别等领域都有广泛的应用。通过获取最小和最大点，可以方便地计算边界框的大小、位置以及与其他边界框的相交情况等。
对于腾讯云相关产品，可以使用腾讯云的图像处理服务（https://cloud.tencent.com/product/tiia）来实现边界框的处理和计算。该服务提供了丰富的图像处理功能，包括边界框的检测、识别和计算等。

请注意，以上答案仅供参考，具体的实现方法和相关产品推荐还需要根据实际需求和情况进行选择。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

超越SOTA：PP-SAM 在有限数据集上的图像分割突破，简化采样 SA M 过程，仅需最小的标注！

基于深度学习算法在结肠镜检查过程中检测癌前病变已显示出巨大潜力。近期，一种基础模型，即Segment Anything Model（SAM），被引入用于通用语义分割。一些研究探索了其在息肉分割中的零样本推理或微调[17, 9]潜力。

01

改进YOLOX | Push-IOU+Dynamic Anchor进一步提升YOLOX性能

近年来，自动驾驶汽车不断走进我们的视野中，面向自动驾驶的目标检测算法也成为了国内外的研究热点之一。安全可靠的自动驾驶汽车依赖于对周围环境的准确感知，以便及时做出正确的决策。目标检测是自动驾驶系统的关键任务之一，其主要的功能是检测前方道路上出现的目标的空间位置和目标类别。

05

ExtremeNet：通过极点进行目标检测，更细致的目标区域 | CVPR 2019

论文: Bottom-up Object Detection by Grouping Extreme and Center Points

02

改进YOLOX | Push-IOU+Dynamic Anchor进一步提升YOLOX性能

近年来，自动驾驶汽车不断走进我们的视野中，面向自动驾驶的目标检测算法也成为了国内外的研究热点之一。安全可靠的自动驾驶汽车依赖于对周围环境的准确感知，以便及时做出正确的决策。目标检测是自动驾驶系统的关键任务之一，其主要的功能是检测前方道路上出现的目标的空间位置和目标类别。

03

PPDet：减少Anchor-free目标检测中的标签噪声，小目标检测提升明显

论文地址：https://arxiv.org/pdf/2008.01167.pdf

03

Feature Selective Anchor-Free Module for Single-Shot Object Detection(文献阅读)

目标的多尺度变化在目标检测中是一个很重要的问题，利用特征层多尺度(或anchor多尺度)是一种有效的解决方案。Anchor box用于将所有可能的Instance box离散为有限数量的具有预先定义的位置、尺度和纵横比的box。Instance box和Anchor box基于IOU重叠率来匹配。当这种方法集成到特征金字塔的时候，大的anchor通常和上部的特征相映射，小的anchor通常和下部的特征相映射，如下图所示。这是基于启发式的，即上层特征图有更多的语义信息适合于检测大的目标，而下层特征图有更多的细粒度细节适合于检测小目标。然而，这种设计有两个局限性:1)启发式引导的特征选择;2)基于覆盖锚取样。在训练过程中，每个实例总是根据IoU重叠匹配到最近的锚盒。而锚框则通过人类定义的规则(如框的大小)与特定级别的功能映射相关联。因此，为每个实例选择的特性级别完全基于自组织启发式。例如,一个汽车实例大小50×50像素和另一个类似的汽车实例规模60×60像素可能分配到两个不同的特征层,而另一个40×40像素大小的实例可能被分配到和50x50相同的特征层,如下图所示。

02

最小代价分配移除NMS后处理，港大&字节跳动提出E2E单阶段目标检测器

目标检测是计算机视觉领域的基础性任务之一，并且赋能大量的下游应用。当前目标检测器存在的一大挑战是标签分配问题。特别地，如何定义每个目标的正样本和背景的负样本始终是一个悬而未决的难题。数十年来，目标检测中的正样本一直是候选框，它与真值框的 IoU 大于阈值。现代检测器在图像网格上预定义数千个锚框，并在这些候选框上执行分类和回归任务。这种基于框的标签分配方法被称为「框分配」。

02

无需NMS的目标检测，OneNet

目标检测是计算机视觉领域的基础性任务之一，并且赋能大量的下游应用。当前目标检测器存在的一大挑战是标签分配问题。特别地，如何定义每个目标的正样本和背景的负样本始终是一个悬而未决的难题。数十年来，目标检测中的正样本一直是候选框，它与真值框的 IoU 大于阈值。现代检测器在图像网格上预定义数千个锚框，并在这些候选框上执行分类和回归任务。这种基于框的标签分配方法被称为「框分配」。

03

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

选自medium 机器之心编译机器之心编辑部 Faster R-CNN、R-FCN 和 SSD 是三种目前最优且应用最广泛的目标检测模型，其他流行的模型通常与这三者类似。本文介绍了深度学习目标检测的

07

基于感知能力的点云实例分割

论文标题：Instance-Aware Embedding for Point Cloud Instance Seg

03

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

选自arXiv 作者：Ting Chen等机器之心编译机器之心编辑部目标检测的「尽头」是语言建模？近日，Hinton 团队提出了全新目标检测通用框架 Pix2Seq，将目标检测视作基于像素的语言建模任务，实现了媲美 Faster R-CNN 和 DETR 的性能表现。视觉目标检测系统旨在在图像中识别和定位所有预定义类别的目标。检测到的目标通常由一组边界框和相关的类标签来描述。鉴于任务的难度，大多数现有方法都是经过精心设计和高度定制的，在架构和损失函数的选择方面用到了大量的先验知识。图灵奖得主 Ge

00

CVPR 2019：精确目标检测的不确定边界框回归

大规模的目标检测数据集(例如MS-COCO)在进行Ground Truth框标注时仍然存在歧义。这篇论文提出了新的边界框回归损失针对目标框的移动以及位置方差进行学习，这种方法在几乎不增加计算量的基础上提高不同结构定位的准确性。另一个关键点是，由于学习了bounding box的分布，可以将其应用在NMS阶段合并相邻目标框，进一步提升定位的准确性。代码已开源。

03

使用Mask-RCNN在实例分割应用中克服过拟合

代码：https://github.com/kayoyin/tiny-inst-segmentation

02

收藏 | 使用Mask-RCNN在实例分割应用中克服过拟合

代码：https://github.com/kayoyin/tiny-inst-segmentation

03

卷积神经网络（四） ——目标检测与YOLO算法

卷积神经网络（四） ——目标检测与YOLO算法（原创内容，转载请注明来源，谢谢）一、概述目标检测，主要目的是在图片中，分类确认是否有需要的物体，如果有则标出对应的物体。二、目标定位目标定位（

06

ECCV2020 | Ocean：目标感知的Anchor-free实时跟踪器，速度70+FPS！刚开源

论文链接：https://arxiv.org/pdf/2006.10721.pdf

01

无需人脸检测和关键点定位，Facebook等提出实时3D人脸姿态估计新方法

来自 Facebook AI 和美国圣母大学的研究者提出了一种 6 自由度的实时 3D 人脸姿态估计技术，可以不依赖人脸检测和人脸关键点定位独立运行。

01

跳过人脸检测和关键点定位，Facebook等提出实时3D人脸姿态估计新方法

人脸检测是给照片中的每个人脸指定一个边界框，人脸关键点检测则需要定位特殊的人脸特征，如眼睛中心、鼻尖等。基于二者的两步走方法是很多人脸推理任务的关键所在，如 3D 重建。

02

验证码识别，发票编号识别

毕业设计做了一个简单的研究下验证码识别的问题，并没有深入的研究，设计图形图像的东西，水很深，神经网络，机器学习，都很难。这次只是在传统的方式下分析了一次。今年工作之后再也没有整理过，前几天一个家伙要这个demo看下，我把一堆东西收集，打包给他了，他闲太乱了，我就整理记录下。这也是大学最后的一次作业，里面有很多记忆和怀念。这个demo的初衷不是去识别验证码，是把验证的图像处理方式用到其他方面，车票，票据等。这里最后做了一个发票编号识别的的案例：地址：http://v.youku.com/v_show

09

一文了解动态场景中的SLAM的研究现状

常规的SLAM算法首先假设环境中所有物体均处于静止的状态。而一些能够在动态环境中运行的SLAM系统，只是将环境中的动态物体视为异常值并将他们从环境中剔除，再使用常规的SLAM算法进行处理。这严重影响SLAM在自动驾驶中的应用。

02

Swin-Transformer再次助力夺冠 | Kaggle第1名方案解读（工程人员建议必看）

前面使用检测网络预测的边界框来裁剪图像，并将它们的大小调整为512×512。裁剪后的图像路径被输入到分割网络以获得Instance Mask。

04

发票编号识别、验证码识别，图像分割

地址：http://v.youku.com/v_show/id_XMTI1MzUxNDY3Ng==.html

01

ICCV 2023 | Seal-3D：神经辐射场的交互式像素级编辑

NeRF 在例如 3D 重建、自由视角合成以及 VR/AR 等众多 3D 应用中都具有巨大的潜力。随着这种隐式表征方式的流行，能够与这种类型的 3D 模型进行用户友好型编辑交互的工具被迫切需要。由于捕获数据的噪声和重建算法的限制，从真实世界重建的对象可能包含伪影。一方面，在典型的 3D 扫描流程中经常会有手动校正和细化以去除伪影的阶段。另一方面，在 3D 游戏、动画和拍摄等 3D 内容创建应用程序中，艺术创作者通常需要基于现有的 3D 模型创建新内容。

04

在浏览器中使用tensorflow.js进行人脸识别的JavaScript API

作者 | Vincent Mühle 编译 | 姗姗出品 | 人工智能头条（公众号ID：AI_Thinker）【导读】随着深度学习方法的应用，浏览器调用人脸识别技术已经得到了更广泛的应用与提升。在实际过程中也具有其特有的优势，通过集成与人脸检测与识别相关的API，通过更为简单的coding就可以实现。今天将为大家介绍一个用于人脸检测、人脸识别和人脸特征检测的 JavaScript API，通过在浏览器中利用 tensorflow.js 进行人脸检测和人脸识别。大家不仅可以更快速学习这个，对有人脸识别技术

03

Map Reduce和流处理

Map/Reduce，简而言之，map()和reduce()是在集群式设备上用来做大规模数据处理的方法。

05

教程 | Adrian小哥教程：如何使用Tesseract和OpenCV执行OCR和文本识别

本教程将介绍如何使用 OpenCV OCR。我们将使用 OpenCV、Python 和 Tesseract 执行文本检测和文本识别。

05

DA-YOLO |多域自适应DA-YOLO解读，恶劣天气也看得见（附论文）

Domain Adaptation在解决许多应用中遇到的Domain Shift问题方面发挥了重要作用。这个问题的出现是由于用于训练的源数据的分布与实际测试场景中使用的目标数据之间存在差异。

05

YOLO |多域自适应MSDA-YOLO解读，恶劣天气也看得见（附论文）

Domain Adaptation在解决许多应用中遇到的Domain Shift问题方面发挥了重要作用。这个问题的出现是由于用于训练的源数据的分布与实际测试场景中使用的目标数据之间存在差异。

03

Windows注入与拦截（1） — DLL注入的基本原理「建议收藏」

从前面的《Windows内存体系》系列文章中我们可以知道，在Windows系统中，每个进程都有自己私有的地址空间。当我们用指针来引用内存的时候，指针的值表示的是进程自己的地址空间的一个虚拟的内存地址。进程不能通过指针来引用其他进程地址空间的内存。因此，如果一个进程有缺陷会导致其引用和覆盖随机地址处的内存，那么这个缺陷的影响就会不会扩散到其他的进程。

02

【计算机视觉——RCNN目标检测系列】一、选择性搜索详解

在刚刚过去的一个学期里，基本水逆了一整个学期，这学期基本没干什么活，就跟RCNN杠上了。首先是看论文，然后是网上找tensorflow写好的源码。但是，可惜的是网上给出的源码基本上是RCNN的主要作者Ross Girshick大神的代码，不同数据集换了下。因此为了理解源码，RCNN的处理过程，费劲去装了个ubuntu和win10的双系统并在Ubuntu上安装caffe，这就花费了近2周的时间。快速研究完RCNN的caffe源码之后，才转过来手写Fast RCNN的tensorflow版本的代码，这也花费了大量的时间，从踩坑到填坑再到踩坑。RCNN不是很好实现，SVM至今还没怎么看懂。接下来将会陆续更新RCNN->Fast RCNN->Faster RCNN系列的文章。在这篇文章中，主要讲解RCNN与Fast RCNN中获取图片中物体真实目标检测框的算法——选择性搜索算法。

01

RRC detection、CornerNet、M2Det、FOCS…你都掌握了吗？一文总结目标检测必备经典模型（三）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 17 个在目标检测任务上曾取得 SOTA 的经典模型。第 1 期：R-CNN、SPP-Net、Fast R-CNN、Faster R-C

03

基于立体R-CNN的3D对象检测

好消息，小伙伴以后可以通过问答的形式在文章下方进行留言，并且小白也会及时回复大家哦！

01

YOLO再战大雾天气 | IA-YOLO数据增强+感知损失，做到大雾天气无痛即可完成YOLO检测器的场景升级

基于图像增强的技术试图生成无雾图像。然而，从有雾图像中恢复无雾图像比在雾天图像中检测物体要困难得多。另一方面，基于领域适应的方法并不使用目标领域中的标记数据集。这两类方法都在尝试解决一个更难的问题版本。 FogGuard特别设计用来补偿场景中存在的雾天条件，确保即使在雾天也能保持稳健的性能。作者采用YOLOv3作为基准目标检测算法，并引入了一种新颖的“教师-学生”感知损失，以提高雾天图像中的目标检测准确度。在如PASCAL VOC和RTTS等常见数据集上的广泛评估中，作者展示了作者网络性能的提升。作者证明，FogGuard在RTTS数据集上达到了69.43%的mAP，而YOLOv3为57.78%。此外，作者表明，尽管作者的训练方法增加了时间复杂度，但在推理过程中与常规的YOLO网络相比，它并没有引入任何额外的开销。

01

有福利送书 | 3D对象检测检测概述

点击上方蓝字关注我们微信公众号：OpenCV学堂关注获取更多计算机视觉与深度学习知识将3D对象检测方法分为三类：单目图像，点云以及基于融合的方法。基于单目图像的方法。尽管2D对象的检测已解决，并已在多个数据集中得到成功应用。但KITTI数据集对对象检测，提出了挑战的特定设置。而这些设置，对于大多数驾驶环境都是常见的，包括小的、被遮挡的或被截断的物体，以及高度饱和的区域或阴影。此外，图像平面上的2D检测，还不足以提供可靠的驱动系统。此类应用需要更精确的3D空间定位和尺寸估算。本节将重点介

01

使用单一卷积网实时进行端到端3D检测，跟踪和运动预测

http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/3013.pdf

02

左手用R右手Python系列——因子变量与分类重编码

今天这篇介绍数据类型中因子变量的运用在R语言和Python中的实现。因子变量是数据结构中用于描述分类事物的一类重要变量。其在现实生活中对应着大量具有实际意义的分类事物。比如年龄段、性别、职位、爱好，星座等。之所以给其单独列出一个篇幅进行讲解，除了其在数据结构中的特殊地位之外，在数据可视化和数据分析与建模过程中，因子变量往往也承担中描述某一事物重要维度特征的作用，其意义非同寻常，无论是在数据处理过程中还是后期的分析与建模，都不容忽视。通常意义上，按照其所描述的维度实际意义，因子变量一般又可细分为无序因

05

SSD（单次多盒检测）用于实时物体检测

卷积神经网络在检测图像中的物体时优于其他神经网络结构。很快，研究人员改进了 CNN 来进行对象定位与检测，并称这种结构为 R-CNN（Region-CNN）。R-CNN 的输出是具有矩形框和分类的图像，矩形框围绕着图像中的对象。以下是 R-CNN 的工作步骤：

02

技术分享 | 黑盒测试方法论—边界值

边界值分析法是一种很实用的黑盒测试用例方法，它具有很强的发现故障的能力。边界值分析法也是作为对等价类划分法的补充，测试用例来自等价类的边界。

02

Mapinfo操作不太会？看这篇就够了

3、通过 Mapinfo 软件中 Sql 统计查询命令，计算出每种网格内道路的总长度。

02

Focaler-IoU开源 | 高于SIoU+关注困难样本，让YOLOv5再涨1.9%，YOLOv8再涨点0.3%

目标检测是计算机视觉的基本任务之一，其目的是在图像中定位并识别物体。根据是否生成 Anchor 点，目标检测方法可以分为Anchor-based和 Anchor-Free两大类。Anchor-based算法包括FasterR-CNN，YOLO系列，SSD和 RetinaNet。 Anchor-Free的检测算法包括CornerNet，CenterNet 和 FCOS。在这些检测器中，边界框回归损失函数作为定位分支的重要组成部分，起着不可替代的作用。

01

关注难易样本分布 Focaler-IoU | 提升边界框回归在目标检测中的应用性能！

目标检测是计算机视觉的基本任务之一，其目的是在图像中定位并识别物体。根据是否生成 Anchor 点，目标检测方法可以分为Anchor-based和 Anchor-Free两大类。Anchor-based算法包括FasterR-CNN，YOLO系列，SSD和 RetinaNet。Anchor-Free的检测算法包括CornerNet，CenterNet 和 FCOS。在这些检测器中，边界框回归损失函数作为定位分支的重要组成部分，起着不可替代的作用。

01

TED演讲 | 计算机是怎样快速看懂图片的：比R-CNN快1000倍的YOLO算法

大数据文摘作品，转载要求见文末主讲人 | Joseph Redmon 翻轴 | 海抒，Lisa，弋心校对 | 陈啸明后期 | DJ You only live once? 不，You only

02

目标检测算法之Anchor Free的起源：CVPR 2015 DenseBox

刚刚过去的2019年出现了大量Anchor Free的工作，并且这个方向似乎大有可为，不少大佬都在研究这个方向。本着学习的态度，我将从Anchor Free的起源开始讲起，这是一个持续更新的系列。今天先来讲一下CVPR 2015的DenseBox，这项工作算是Anchor Free的起源。不得不说接近3-4年时间，Anchor Free才大火起来，由此看来这篇论文确实高瞻远瞩。论文地址和代码实现见附录。

01

MonoJSG：联合语义和几何代价函数的单目3D目标检测（CVPR2022）

论文标题：MonoJSG：Joint Semantic and Geometric Cost Volume for Monocular 3D Object Detection

01

超越GIoU/DIoU/CIoU/EIoU | MPDIoU让YOLOv7/YOLACT双双涨点，速度不减！

。实验结果表明，将MPDIoU损失函数应用于最先进的实例分割（如YOLACT）和目标检测（如YOLOv7）模型，在PASCAL VOC、MS COCO和IIIT5k数据集上优于现有的损失函数。

05

RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层！

鉴于高发病率和死亡率，脑肿瘤是全球健康关注的重点问题。通过利用深度学习算法等最先进技术，自动化检测技术可以有效解决脑肿瘤识别的挑战。将自动化检测融入医疗流程，有望通过革新脑肿瘤的管理方式显著提高患者疗效和医疗服务，尤其是随着技术的发展。最先进的目标检测方法YOLO在估算每个网格单元的类别概率和边界框时，将输入图像划分为网格。

01

全新训练及数据采样&增强策略、跨尺度泛化能力强，FB全景分割实现新SOTA

全景分割网络可以应对很多任务（目标检测、实例分割和语义分割），利用多批全尺寸图像进行训练。然而，随着任务的日益复杂和网络主干容量的不断增大，尽管在训练过程中采用了诸如 [25,20,11,14] 这样的节约内存的策略，全图像训练还是会被可用的 GPU 内存所抑制。明显的缓解策略包括减少训练批次大小、缩小高分辨率训练图像，或者使用低容量的主干。不幸的是，这些解决方法引入了其他问题：1) 小批次大小可能导致梯度出现较大的方差，从而降低批归一化的有效性 [13]，降低模型的性能；2）图像分辨率的降低会导致精细结构的丢失，这些精细结构与标签分布的长尾目标密切相关；3）最近的一些工作[28,5,31] 表明，与容量较低的主干相比，具有复杂策略的更大的主干可以提高全景分割的结果。

01

目标检测算法之YOLOv1

今天开始分享一下YOLO系列的目标检测算法，前面介绍了SSD算法和Faster-RCNN，现在公司用Faster-RCNN的似乎不是很多，主要集中在YOLO，SSD以及CenterNet等。我们的检测和宇宙和分割宇宙刚刚开始，之后会更新一些这些算法的代码实战等，敬请期待吧。

02

专栏 | 目标检测算法之YOLOv1

今天开始分享一下 YOLO 系列的目标检测算法，前面介绍了 SSD 算法和 Faster-RCNN，现在公司用 Faster-RCNN 的似乎不是很多，主要集中在 YOLO，SSD 以及 CenterNet 等。我们的检测和宇宙和分割宇宙刚刚开始，之后会更新一些这些算法的代码实战等，敬请期待吧。

02

为什么像素级是图像标注的未来？

在这篇文章中，我将分享一些与我在博士研究期间积累的图像注释相关的想法。具体来说，我将讨论当前最先进的注释方法，它们的趋势和未来方向。最后，我将简要介绍我们正在构建的注释软件，并对我们的公司进行一些简单叙述。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭