开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么对象检测CNN的边界框必须与图像边界平行？

对象检测是计算机视觉领域中的一个重要任务，它的目标是在图像或视频中准确地定位和识别出感兴趣的物体。在对象检测中，边界框是用来标记物体位置的矩形框，而CNN（卷积神经网络）是一种常用的深度学习模型，用于实现对象检测任务。

边界框必须与图像边界平行的原因有以下几点：

简化计算：边界框与图像边界平行可以简化计算，减少复杂度。在对象检测任务中，需要对图像进行分割和特征提取，然后对提取的特征进行分类和定位。如果边界框与图像边界不平行，将增加计算量和复杂度，降低算法的效率。
提高准确性：边界框与图像边界平行可以提高检测算法的准确性。由于CNN模型是基于图像的局部特征进行学习和预测的，如果边界框与图像边界不平行，可能会导致物体的一部分被遮挡或超出边界框，从而影响检测结果的准确性。
简化标注：边界框与图像边界平行可以简化标注过程。在进行对象检测任务时，通常需要手动标注物体的边界框，如果边界框与图像边界平行，标注过程更加简单和直观。
便于后续处理：边界框与图像边界平行可以方便后续处理和应用。在对象检测任务中，边界框的位置和大小信息对于后续的跟踪、分析和应用非常重要。如果边界框与图像边界不平行，可能会导致后续处理的困难和复杂性增加。

腾讯云相关产品和产品介绍链接地址：

腾讯云图像识别（https://cloud.tencent.com/product/imagerecognition）
腾讯云视觉智能（https://cloud.tencent.com/product/vision）
腾讯云人工智能（https://cloud.tencent.com/product/ai）
腾讯云物联网（https://cloud.tencent.com/product/iotexplorer）
腾讯云移动开发（https://cloud.tencent.com/product/mobiledevelopment）
腾讯云存储（https://cloud.tencent.com/product/cos）
腾讯云区块链（https://cloud.tencent.com/product/baas）
腾讯云元宇宙（https://cloud.tencent.com/product/vr）

请注意，以上链接仅供参考，具体产品选择应根据实际需求和情况进行评估和决策。

相关搜索:python中CNN多类图像分类的边界框预测 Tensorflow对象检测API的每个边界框的概率分布/置信度分数 Tensorflow对象检测api获取按边界框坐标排序的预测 Tensorflow对象检测模块中的边界框数量为什么opencv houghline检测到的直线与图像中的真实直线不平行？图像中所有不同对象周围的边界框图像处理:在(相当)相同的背景颜色上检测对象的边界在iOS上使用Google ML对象检测和在图像上绘制边界框在Tensorflow对象检测API中，如何计算多个边界框预测的IoU？在tensorflow对象检测API之后，裁剪训练和测试数据中的所有边界框

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

云+社区分享——腾讯云OCR文字识别

2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别——智能图像分享活动，活动举办期间用户耐心听分享嘉宾的介绍，并提出了相关的问题，智能图像团队的科学家和工程师也耐心解答可用户的疑问。以下就是活动分享的全部内容。

ADA-YOLO | YOLOv8+注意力+Adaptive Head，相对YOLOv8，mAP提升3%+118FPS

近年来，目标检测技术取得了显著的进展，使得可以实现对解剖结构、病变或异常的自动识别和定位。多年来，目标检测方法取得了重大的进步，这是由于大规模的带有标注的数据集的出现和深度学习技术的开发所驱动的。这些技术在改善医疗诊断和治疗结果方面展示出巨大的潜力。

01

腾讯云OCR技术助力企业证书识别和数据提取实践

在当今数字化时代，OCR（Optical Character Recognition）识别技术正发挥着越来越重要的作用。OCR技术通过将图像中的文字转化为可编辑的文本形式，实现了对大量纸质文档的数字化处理和信息提取。常见的有企业资质证书的识别到身份证、护照等各类证件的自动识别等方面，OCR技术正在为各行各业无纸化办公起到了非常重要的作用。

08

图像标签背后的技术原理及应用场景

以上这些便利的功能，都使用了图像标签。它们背后的AI算法是如何读懂一张图片的呢？图像标签还有哪些应用？希望这篇文章可以回答你的疑问。

03

CPS推广奖励可返佣产品明细表

1、轻量应用服务器Lighthouse https://cloud.tencent.com/product/lighthouse

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

标题：IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

03

OCR技术解读和腾讯云文字识别试用教程体验

近年来，随着人工智能技术的快速发展，OCR（Optical Character Recognition，光学字符识别）技术得到了广泛的应用和重视。OCR技术用于将印刷或手写的文本转化为可编辑的数据，极大地提高了数据处理的效率和精确度。腾讯云的文字识别服务提供了强大而可靠的OCR功能，为开发者和AI爱好者提供了便捷的文字识别解决方案。

一文解读CVPR等9个顶会挑战赛冠军团队方案，助你参悟AI算法设计之道

想成为下一个刷爆挑战赛榜单的冠军？这份复习材料涵盖 CVPR、ICCV 等顶会挑战赛的优胜算法方案，无论你是挑战赛老司机，还是新晋小白，相信对你参悟竞赛道路都会有所帮助。本篇是机器之心「虎卷er行动 · 春卷er」的第三卷，为老伙计们汇总解读 9 个刷爆 AI 顶会挑战赛榜单的优胜算法方案。 1、CVPR 2021 NTIRE 2021 挑战赛多帧 HDR 成像冠军方案：使用新型的双分支网络结构 ADNet（旷视科技团队） NTIRE 2021 挑战赛作为图像视频修复和增强领域极具影响力的国际竞赛

05

目标检测YOLO系列算法的进化史

本文中将简单总结YOLO的发展历史，YOLO是计算机视觉领域中著名的模型之一，与其他的分类方法，例如R-CNN不同，R-CNN将检测结果分为两部分求解：物体类别（分类问题），物体位置即bounding box（回归问题）不同，YOLO将任务统一为一个回归问题。也就是相对于R-CNN系列的"看两眼"(候选框提取与分类),YOLO只需要 You Only Look Once。

01

目标检测YOLO系列算法的进化史

来源：DeepHub IMBA 本文约3400字，建议阅读6分钟本文为你简单总结YOLO的发展历史。本文中将简单总结YOLO的发展历史，YOLO是计算机视觉领域中著名的模型之一，与其他的分类方法，例如R-CNN不同，R-CNN将检测结果分为两部分求解：物体类别（分类问题），物体位置即bounding box（回归问题）不同，YOLO将任务统一为一个回归问题。也就是相对于R-CNN系列的"看两眼"(候选框提取与分类)，YOLO只需要 You Only Look Once。目标检测我们人类只需要看一眼

02

大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型

空中图像中的物体检测已成为一个动态且关键的研究领域，主要关注通过空中平台（如卫星、无人机或飞机）捕获的高分辨率图像中物体的识别和定位。这种技术在众多领域得到应用，包括但不限于城市规划，精确农业，灾害管理，以及军事监视。

01

腾讯云释义最佳实践

腾讯云释义（Tencent Cloud Explanation，TCEX）是一款为开发者提供的简单易用的内容解析工具。该工具集成了腾讯云光学字符识别（OCR）和腾讯云自然语言处理（NLP）能力，支持对文本进行分类、理解内容的情感、命名实体识别、合同关键信息抽取。开发者无需算法背景，通过在线标注，即可训练生成自定义的模型。

07

2023年为何YOLO成为最热门视觉检测技术？猫头虎带您揭秘其背后的原因！

🔍 在2023年，YOLO（You Only Look Once）技术在计算机视觉领域成为炙手可热的明星。从实时处理速度到准确率的大幅提升，YOLO在众多领域展现了其非凡的实力。本文将深入探讨YOLO的原理，实现方式，以及它如何在众多竞争技术中脱颖而出。无论你是AI初学者还是领域大佬，都能从这篇文章中获得有价值的洞见。关键词：计算机视觉，实时检测，YOLO算法，深度学习，AI技术，模型优化。

01

X射线图像中的目标检测

每天有数百万人乘坐地铁、民航飞机等公共交通工具，因此行李的安全检测将保护公共场所免受恐怖主义等影响，在安全防范中扮演着重要角色。但随着城市人口的增长，使用公共交通工具的人数逐渐增多，在获得便利的同时带来很大的不安全性，因此设计一种可以帮助加快安全检查过程并提高其效率的系统非常重要。卷积神经网络等深度学习算法不断发展，也在各种不同领域（例如机器翻译和图像处理）发挥了很大作用，而目标检测作为一项基本的计算机视觉问题，能为图像和视频理解提供有价值的信息，并与图像分类、机器人技术、人脸识别和自动驾驶等相关。在本项目中，我们将一起探索几个基于深度学习的目标检测模型，以对X射线图像中的违禁物体进行定位和分类为基础，并比较这几个模型在不同指标上的表现。

02

腾讯云自然语言处理 NLP：产品优势 & 应用场景

自然语言处理可以说是人工智能领域内落地实践最广的技术之一，NLP产品的应用场景颇为广泛，只要有大量文本数据的场景，都可以使用我们的接口做智能分析，以下列举几个经典的使用场景。

07

ECCV 2022｜全场景图生成PSG：追求「最全面」的场景理解

机器之心专栏作者：MMLab@NTU 本文提出基于全景分割的全场景图生成（panoptic scene graph generation，即PSG）任务。相比于传统基于检测框的场景图生成任务，PSG任务要求全面地输出图像中的所有关系（包括物体与物体间关系，物体与背景间关系，背景与背景间关系），并用准确的分割块来定位物体。PSG任务旨在推动计算机视觉模型对场景最全面的理解和感知，用全面的识别结果更好地支撑场景描述、视觉推理等下游任务。同时PSG数据集提供的关系标注和全景分割也为解决当前图像生成领域对关系不敏

04

目标检测究竟发展到了什么程度? | CVHub带你聊一聊目标检测发展的这22年

目标检测领域发展至今已有二十余载，从早期的传统方法到如今的深度学习方法，精度越来越高的同时速度也越来越快，这得益于深度学习等相关技术的不断发展。本文将对目标检测领域的发展做一个系统性的介绍，旨在为读者构建一个完整的知识体系架构，同时了解目标检测相关的技术栈及其未来的发展趋势。由于编者水平有限，本文若有不当之处还请指出与纠正，欢迎大家评论交流！

02

南洋理工提出全场景图生成PSG任务，像素级定位物体，还得预测56种关系

---- 新智元报道编辑：好困【新智元导读】本文提出基于全景分割的全场景图生成（panoptic scene graph generation，即PSG）任务。相比于传统基于检测框的场景图生成，PSG任务要求全面地输出图像中的所有关系（包括物体与物体间关系，物体与背景间关系，背景与背景间关系），并用准确的分割块来定位物体。PSG任务旨在推动计算机视觉模型对场景最全面的理解和感知，用全面的识别结果更好地支撑场景描述、视觉推理等下游任务。同时PSG数据集提供的关系标注和全景分割也为解决当前图像生成

03

最全整理 | 万字长文综述目标检测领域，您要的，都在这里！

目标检测是计算机视觉中的一个重要问题，近年来传统检测方法已难以满足人们对目标检测效果的要求，随着深度学习在图像分类任务上取得巨大进展，基于深度学习的目标检测算法逐渐成为主流。总体上站长我都做了summary，先上图为敬：

01

现代目标检测故事 | 40+种网络架构大盘点！从基础架构ResNet到最强检测器Yolov7再到最新部署神器GhostNetV2

目标检测是指在图像或视频中分类和定位物体的任务。由于其广泛的应用，最近几年目标检测受到了越来越多的关注。本文概述了基于深度学习的目标检测器的最新发展。同时，还提供了目标检测任务的基准数据集和评估指标的简要概述，以及在识别任务中使用的一些高性能基础架构，其还涵盖了当前在边缘设备上使用的轻量级模型。在文章的最后，我们通过以图表的形式直观地在多个经典指标上比较了这些架构的性能。

03

一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇（含答案）

作者灯会为21届中部985研究生，凭借自己整理的面经，去年在腾讯优图暑期实习，七月份将入职百度cv算法工程师。在去年灰飞烟灭的算法求职季中，经过30+场不同公司以及不同部门的面试中积累出了CV总复习系列，此为目标检测篇。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

02

深度 | 用于图像分割的卷积神经网络：从R-CNN到Mark R-CNN

选自Athelas 作者：Dhruv Parthasarathy 机器之心编译参与：王宇欣、hustcxy、黄小天卷积神经网络（CNN）的作用远不止分类那么简单！在本文中，我们将看到卷积神经网络（CNN）如何在图像实例分割任务中提升其结果。自从 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年赢得了 ImageNet 的冠军，卷积神经网络就成为了分割图像的黄金准则。事实上，从那时起，卷积神经网络不断获得完善，并已在 ImageNet 挑战上超

06

目标检测2: 目标检测20年综述之(二)

本文是目标检测方向的第二篇，也是综述的第二部分，第一篇见目标检测1: 目标检测20年综述之(一)。这两篇的目的主要是让读者对目标检测任务有直观的认识，后续介绍细节时有一定的概念储备，无需关注细节。

04

深度学习与CV教程(13) | 目标检测 (SSD,YOLO系列)

本系列为斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。

06

OCR检测与识别技术

在过去的数年中，腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。特别是在广告推荐领域，团队自研的基于深度在线点击率预估算法及全流程实时推荐系统，持续多年在该领域取得显著成绩。而在用户意图和广告理解上，借助于广告图片中的文本识别以及物体识别等技术手段，可以更加有效的加深对广告创意、用户偏好等方面的理解，从而更好的服务于广告推荐业务。 OCR（Optical Character Recognition, 光学字符识别）是指对输入图像进行分析识

目标检测（Object Detection）

目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。

01

CAM 论文阅读

重新审视《 Network in network》中提出的全局平均池化层（global average pooling），并阐明了它是如何通过图片标签就能让卷积神经网络具有卓越的定位能力。虽然这项技术以前被当做正则化训练的一种方法，但是我们发现它实际构建了一种通用的适用于各种任务的能定位的深度表示。尽管global average pooling很简单，我们仍然能够在2014年的ILSVRC物体定位比赛中得到37.1%的top-5错误率，与CNN的34.2%top-5错误率非常接近。我们证明了我们的网络能在各种任务中区分图像区域进行定位，尽管没有经过（定位）训练。

05

【腾讯云云上实验室-向量数据库】Tencent Cloud VectorDB为非结构化数据查询插上飞翔的翅膀——以企业知识库为例

以前我曾疑惑，对于非结构化的内容，如一张图片或一段视频，如何实现搜索呢？图片或视频作为二进制文件，我们如何将其转化为可搜索的数据并存储起来，然后在搜索时将其还原呢？

01

【深度学习】目标检测

目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。

01

【活动公告】腾讯云IoT开发者迷你赛

根据权威机构预测，2025年全球物联网连接总数将超过250亿，万物感知、万物互联带来的数据洪流，催生物联网的兴起。腾讯云IoT定位于物联网基础设施建设服务者，通过搭建物联网端-管-边-云的基础设施能力，为企业实现物联网信息化提供优质可靠的基础设施能力，降低物联网的开发门槛和复杂度，帮助业务快速上线。目前，物联网开发平台Explorer和物联网操作系统TencentOS tiny已开放公测。本次活动希望领取到由腾讯云IoT合作伙伴厚德物联网提供的开发板的开发者，通过使用该开发板并结合IoT Explorer和TencentOS tiny开发物联网相关的应用作品，同时优秀作品还可获得额外丰厚的奖品。

06

CVPR 2020 | CenterMask : Anchor-Free 实时实例分割(长文详解)

https://github.com/youngwanLEE/CenterMask

03

多目标跟踪 | FairMOT：统一检测、重识别的多目标跟踪框架，全新Baseline

论文地址：https://arxiv.org/pdf/2004.01888v2.pdf

04

两阶段目标检测指南：R-CNN、FPN、Mask R-CNN

计算机视觉中最基本和最广泛研究的挑战之一是目标检测。该任务旨在在给定图像中绘制多个对象边界框，这在包括自动驾驶在内的许多领域非常重要。通常，这些目标检测算法可以分为两类：单阶段模型和多阶段模型。在这篇文章中，我们将通过回顾该领域一些最重要的论文，深入探讨用于对象检测的多阶段管道的关键见解。

03

实例分割论文调研_论文案例分析模板

A Survey on Instance Segmentation: State of the art 链接解读https://zhuanlan.zhihu.com/p/165135767

02

SSD（单次多盒检测）用于实时物体检测

卷积神经网络在检测图像中的物体时优于其他神经网络结构。很快，研究人员改进了 CNN 来进行对象定位与检测，并称这种结构为 R-CNN（Region-CNN）。R-CNN 的输出是具有矩形框和分类的图像，矩形框围绕着图像中的对象。以下是 R-CNN 的工作步骤：

02

精通 TensorFlow 2.x 计算机视觉：第二部分

在本节中，您将基于在上一节中学到的知识来执行复杂的计算机视觉任务，例如视觉搜索，对象检测和神经样式迁移。您将巩固对神经网络的理解，并使用 TensorFlow 进行许多动手的编码练习。

02

小白系列（1） | 计算机视觉之图像分类

原文：https://viso.ai/computer-vision/image-classification/

01

鹅厂这波青年用“云”监测云

引言 “绿水青山，就是金山银山”，随着我国加强立法，大力投入环境治理，大家已经明显感觉到身边的大气环境在不断改善，那么除了国家气象局的城市级监测数据外，我们身边的微环境究竟是什么样子的呢？接下来的进一步环保努力，又应该在什么位置呢？为了跟踪小区级的微环境质量，腾讯内部发起了一个实验性项目：细粒度的分布式大气监测。此系统完全基于腾讯云搭建，组成部分包含：腾讯云-云数据库、腾讯云-腾讯云图、腾讯云-物联网开发平台、TencentOS tiny、腾讯云-API网关、腾讯云-云函数，以及配套的 NUCLEO

02

关于目标检测鼻祖R-CNN论文

R-CNN系列论文是使用深度学习进行物体检测的鼻祖论文，其中fast-RCNN 以及faster-RCNN都是沿袭R-CNN的思路。R-CNN全称region with CNN features，其实它的名字就是一个很好的解释。用CNN提取出Region Proposals中的featues，然后进行SVM分类与bbox的回归

03

目标检测算法发展简史

比起图像识别，现在图片生成技术要更加具有吸引力，但是要步入AIGC技术领域，首先不推荐一上来就接触那些已经成熟闭源的包装好了再提供给你的接口网站，会使用别人的模型生成一些图片就能叫自己会AIGC了吗？那样真正成为了搬运工了，而且是最廉价的。生成图片技术更多是根据一些基础的图像处理技术来演变而来，从最基础的图像处理技术学习，你就能明白图片生成是怎么一回事。最近看了很多关于目标检测的文章和博客，也在学习AIGC技术，从基础手工设计特征到如今的深度学习模型，二者技术发展历史其实可以说是有比较共同性的。

03

AI新星 | 谷歌朱梦龙：从COCO物体检测冠军到MobileNet

【新智元导读】在谷歌研究院工作是一种怎样的体验？新智元近日专访了谷歌研究员朱梦龙，他作为谷歌团队G-RMI的核心成员，从去年9月开始一直盘踞在COCO的物体检测榜首。此外，他作为团队核心成员发布的最新研究MobileNet，通过分解降维卷积层，以及早期采用stride 2等，把计算量压缩至VGG的1/30，让终端模型的图像检测达到VGG的效果。谈到在谷歌研究院的体验，他认为就像在读PhD，跟一群天才（包括曾经在谷歌的贾扬清）一起讨论有趣的想法，以及做有意思的项目；不同的是，这些项目还能在现实中被广泛应用。

综述 | 基于深度学习的目标检测算法

导读：目标检测（Object Detection）是计算机视觉领域的基本任务之一，学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。从最初 2013 年提出的 R-CNN、OverFeat，到后面的 Fast/Faster R-CNN、SSD、YOLO 系列，再到 2018 年最近的 Pelee。短短不到五年时间，基于深度学习的目标检测技术，在网络结构上，从 two stage 到 one stage，从 bottom-up only 到 Top-Down，从 single scale network 到 feature pyramid network，从面向 PC 端到面向手机端，都涌现出许多好的算法技术，这些算法在开放目标检测数据集上的检测效果和性能都很出色。

02

基于深度学习的视觉多目标跟踪研究综述

多目标跟踪(MOT)旨在从给定视频序列中输出所有目标的运动轨迹并维持各目标的身份。近年来，由于其在学术研究和实际应用中具有巨大潜力，因此受到越来越多的关注并成为计算机视觉的热点研究方向。当前主流的跟踪方法将MOT任务拆分为目标检测、特征提取以及数据关联３个子任务，这种思路已经得到了良好的发展。然而，由于实际跟踪过程中存在遮挡和相似物体干扰等挑战，保持鲁棒跟踪仍是当前的研究难点。为了满足在复杂场景下对多个目标准确、鲁棒、实时跟踪的要求，需要对MOT算法作进一步研究与改进。

03

【腾讯云云上实验室】用向量数据库为非结构化数据查询插上飞翔的翅膀——以企业知识库为例

以前我曾疑惑，对于非结构化的内容，如一张图片或一段视频，如何实现搜索呢？图片或视频作为二进制文件，我们如何将其转化为可搜索的数据并存储起来，然后在搜索时将其还原呢？

02

基于深度学习的视觉多目标跟踪研究综述

多目标跟踪(MOT)旨在从给定视频序列中输出所有目标的运动轨迹并维持各目标的身份。近年来，由于其在学术研究和实际应用中具有巨大潜力，因此受到越来越多的关注并成为计算机视觉的热点研究方向。当前主流的跟踪方法将MOT任务拆分为目标检测、特征提取以及数据关联３个子任务，这种思路已经得到了良好的发展。然而，由于实际跟踪过程中存在遮挡和相似物体干扰等挑战，保持鲁棒跟踪仍是当前的研究难点。为了满足在复杂场景下对多个目标准确、鲁棒、实时跟踪的要求，需要对MOT算法作进一步研究与改进。

01

综述总结：稀疏&集成的卷积神经网络学习

众所周知，当前是信息时代，信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息，在很多场合，图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息，人类利用视觉感知外界环境信息的效率很高。事实上，据一些国外学者所做的统计，人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见，视觉作为人类获取外界信息的主要载体，计算机要实现智能化，就必须能够处理图像信息。尤其是近年来，以图形、图像、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。

02

手把手教你用深度学习做物体检测(五)：YOLOv1介绍

我们提出YOLO，一种新的目标检测方法。以前的目标检测是用分类的方式来检测，而我们将目标检测定义成回归问题，从空间上分隔出边界框和相关的类别概率。这是一个简洁的神经网络，看一次全图后，就能直接从全图预测目标的边界框和类别概率。因为整个检测线是一个单一的网络，在检测效果上，可以直接做端到端的优化。我们的统一架构非常快。我们的基础YOLO模型每秒可以处理45帧图片。该网络的一个更小的版本——Fast YOLO，每秒可以处理155帧图片，其mAP依然能达到其他实时检测模型的2倍。对比最先进的检测系统，YOLO有更多的定位误差，和更少的背景误检情况(把背景预测成目标)。最终，YOLO学到检测目标的非常通用的表示。在从自然图片到其他领域，比如艺术画方面，YOLO的泛化能力胜过其他检测方法，包括DPM和R-CNN。

04

计算机视觉八大任务全概述：PaddlePaddle工程师详解热门视觉模型

百度深度学习工程师，围绕计算机视觉领域的八大任务，包括：图像分类、目标检测、图像语义分割、场景文字识别、图像生成、人体关键点检测、视频分类、度量学习等，进行了较为详细的综述并形成此文。

02

YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍！！

YOLO系列的核心思想就是把目标检测转变为一个回归问题，利用整张图片作为网络的输入，通过神经网络，得到边界框的位置及其所属的类别。

腾讯ARC、华中科大联合提出QueryInst，开启基于Query的实例分割新思路

机器之心专栏机器之心编辑部实例分割（Instance Segmentation）任务有着广阔的应用和发展前景。来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到端实例分割任务中与实例存在一一对应的特性，提出基于Query的实例分割新方法，在速度和精度上均超过现有算法。在今年的计算机视觉顶级会议 ICCV 2021 上，腾讯 PCG 应用研究中心（ARC）与华中科技大学电信学院人工智能研究所联合提出业内领先的端到端实例分割算法 QueryInst。实

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭