我们看论文时常见的AP50AP50AP^{50}、AP75AP75AP^{75}便是来源于此:
传统的目标检测方法通常需要大量的训练数据,并且准备这样高质量的训练数据是劳动密集型的(工作)。在本文中,我们提出了少量样本的目标检测网络,目的是检测只有几个训练实例的未见过的类别对象。我们的方法的核心是注意力RPN和多关系模块,充分利用少量训练样本和测试集之间的相似度来检测新对象,同时抑制背景中的错误检测。为了训练我们的网络,我们已经准备了一个新的数据集,它包含1000类具有高质量注释的不同对象。据我们所知,这也是第一个数据集专门设计用于少样本目标检测。一旦我们的网络被训练,我们可以应用对象检测为未见过的类,而无需进一步的训练或微调。我们的方法是通用的,并且具有广泛的应用范围。我们证明了我们的方法在不同的数据集上的定性和定量的有效性。
传统的目标检测方法通常需要大量的训练数据,并且准备这样高质量的训练数据是劳动密集型的(工作)。在今天分享中,研究者提出了少量样本的目标检测网络,目的是检测只有几个训练实例的未见过的类别对象。新提出的方法核心是注意力RPN和多关系模块,充分利用少量训练样本和测试集之间的相似度来检测新对象,同时抑制背景中的错误检测。
论文:IoU-aware Single-stage Object Detector for Accurate Localization
学习从很少的训练例子中检测图像中的目标是具有挑战性的,因为看到建议框的分类器只有很少的训练数据。当有一个或两个训练例子时,就会出现一个特别具有挑战性的训练方案。在这种情况下,如果区域建议网络(RPN)甚至漏掉一个高相交-联集(IOU)训练框,分类器的目标外观如何变化的模型就会受到严重影响。我们使用多个不同但相互协作的RPN。我们的RPN被训练成不同的,但不是太不同;这样做产生了显著的性能改进的状态的艺术COCO和PASCAL VOC在非常少的样本设置。这种效果似乎独立于分类器或数据集的选择。
目标检测(Intance Detection) 和图像分割(Image Segmantation) 算是深度学习中两个个比较热门的项目了,单级式检测(YOLO、SSD)和双级式检测(Fast R-Cnn)代表了如今大多数的目标检测方法,而FCN、U-net、Deeplab则引领了图像分割的潮流,为此,我们也应该知道如果去评价我们的检测准确度:
摘要 我们提出一个概念上简单,灵活,而且通用的对象实例分割框架(object instance segmentation)。我们的方法能有效检测图像中的对象,同时为每个实例生成高质量的分割掩膜(segmentation mask)。我们将该方法称为 Mask R-CNN,是在 Faster R-CNN 上的扩展,即在用于边界框识别的现有分支上添加一个并行的用于预测对象掩膜(object mask)的分支。 Mask R-CNN 的训练简单,仅比 Faster R-CNN 多一点系统开销,运行速度是 5 fps。此外,Mask R-CNN很容易推广到其他任务,例如可以用于在同一个框架中判断人的姿势。我们在 COCO 竞赛的3个任务上都得到最佳结果,包括实例分割,边界框对象检测,以及人物关键点检测。没有使用其他技巧,Mask R-CNN 在每个任务上都优于现有的单一模型,包括优于 COCO 2016 竞赛的获胜模型。我们希望这个简单而有效的方法将成为一个可靠的基准,有助于未来的实例层面识别的研究。我们将会公开相关代码。
在目标检测中训练模型时,样本间往往有差异性,不能被简单地同等对待。这次介绍的论文提出了一种重要样本的关注机制,在训练过程中帮助模型分辨哪些是重要的样本,从而优化整个训练过程。
Shoufa Chen1, Peize Sun1, Yibing Song2, Ping Luo1 1The University of Hong Kong 2Tencent AI Lab {sfchen, pzsun, pluo}@cs.hku.hk yibingsong.cv@gmail.com
目标检测论文中出现过很多容易混淆的评价指标,比如FLOPS、FLOPs、 GFLOPS,包括最基本的AP、mAP这些定义,索性将这些基本概念搞清楚,做个总结。
今天将分享全景 X 线牙科计数和诊断完整实现版本,为了方便大家学习理解整个流程,将整个流程步骤进行了整理,并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。
本文介绍一篇最近几刚被AAAI2021接收的目标检测工作:《Dynamic Anchor Learning for Arbitrary-Oriented Object Detection》。
选自arXiv 作者:Ronghang Hu 等 机器之心编译 参与:路雪、蒋思源 伯克利和 FAIR 研究人员提出一种新型实例分割模型,该模型能利用目标检测边界框学习对应的分割掩码,因此大大加强了实例分割的目标数量。这种将目标检测的知识迁移到实例分割任务的方法可能是我们以后需要关注的优秀方法,机器之心对这篇论文进行了简要地介绍,更详细的内容请查看原论文。 近来目标检测器准确度显著提升,获得了很多重要的新能力。其中最令人兴奋的一项是为每个检测目标预测前景分割掩码,即实例分割(instance segment
我们提出了一个概念简单、灵活和通用的目标实例分割框架。我们的方法有效地检测图像中的目标,同时为每个实例生成高质量的分割掩码。该方法称为Mask R-CNN,通过添加一个分支来预测一个目标掩码,与现有的用于边界框识别的分支并行,从而扩展了Faster R-CNN。Mask R-CNN训练简单,只增加了一个小开销到Faster R-CNN,运行在5帧每秒。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在相同的框架下估计人类的姿态。我们展示了COCO套件中所有三个方面的顶级结果,包括实例分割、边界框目标检测和人员关键点检测。没有花哨的修饰,Mask R-CNN在每个任务上都比所有现有的单模型条目表现得更好,包括COCO 2016挑战赛冠军。我们希望我们的简单而有效的方法将作为一个坚实的baseline,并有助于简化未来在实例级识别方面的研究。
论文地址:https://arxiv.org/pdf/1903.11752.pdf
Bounding box 回归通过预测目标的bbox来定位图像/视频中的目标,这是目标检测、定位和跟踪的基础。例如,最高级的目标检测器通常由一个bbox回归分支和一个分类分支组成,其中bbox回归分支生成用于定位对象进行分类的bbox。在这项工作中,作者探索了更有效的损失函数。
论文地址: https://arxiv.org/pdf/2011.08036.pdf
因此DIoU中对anchor框和目标框之间的归一化距离进行了建模。直观的展示如下图所示:
论文:Towards Rotation Invariance in Object Detection——ICCV2021
研究者开发了一种增强的数据增强方法来有效抑制训练过程中的过拟合,并设计了一种混合随机损失函数来提高小目标的检测精度。受FCOS的启发,提出了一种更轻、更高效的解耦头,可以在不损失精度的情况下提高推理速度。提出的基线模型在MS COCO2017数据集中可以达到50.6%的AP50:95和69.8%的AP50准确度,在VisDrone2019 DET数据集可以达到26.4%的AP50:95和44.8%的AP50准确度,并且它满足边缘计算设备Nvidia Jetson AGX Xavier的实时性要求(FPS≥30)。
目标检测任务是计算机视觉领域中最基本但最具挑战性的研究任务之一。该任务的目标是预测输入图像中每个物体的唯一边界框,该边界框不仅包含物体的位置信息,还包括框内物体的类别信息。近年来,这一任务得到了广泛的发展和应用,例如在自动驾驶和计算机辅助医学诊断等领域。当前主流的目标检测方法大致可以分为两类。一类是基于卷积神经网络(CNN)作为 Backbone 网络的方法,另一类是基于Transformer作为 Backbone 网络的方法。使用CNN作为 Backbone 网络的方法包括两阶段(如Faster R-CNN)方法和单阶段(如SSD和YOLO)方法。由于物体大小的不确定性,单个特征尺度的信息无法满足高精度识别性能的要求。
分享一篇新出的重要文章:Scaled-YOLOv4: Scaling Cross Stage Partial Network,作者出自YOLOv4的原班人马,其聚焦于针对YOLOv4的模型缩放(model scale)。
例如,对于DETR,Conditinal-DETR,DAB-DETR和DN-DETR,性能提升分别为2.4 AP,2.5 AP,1.9 AP和1.6 AP。作者希望作者的工作能引起检测领域对当前DETR-like模型的定位Bottleneck的关注,并突出了RefineBox框架的潜力。 代码和模型:https://github.com/YiqunChen1999/RefineBox
论文:Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression
https://github.com/eriklindernoren/PyTorch-YOLOv3
另一位曾经参与YOLO项目维护的大神Alexey Bochkovskiy,在arXiv上提交了YOLO v4,而且这篇论文已经被拉入原来YOLO之父建立的项目主线。
今天我们从录用的CVPR2020文章中选了一篇目标检测的优秀文章:ATSS:Bridging the Gap Between Anchor-based and Anchor-free Detection。
本文对发表于 AAAI 2020 的论文《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》进行解读。
由于计算资源有限,开发轻量级目标检测器是必要的。为了降低计算成本,如何生成冗余特征起着至关重要的作用。
机器之心转载 来源:知乎 作者:知乎用户@迪迦奥特曼 YOLO 新版本那么多,到底选哪个? 前不久看到了美团微信公众号上的宣传,更新发布了新版 YOLOv6,还放出了 arxiv 论文,更新了之前的 N/T/S 小模型,也放出了 M 和 L 版本的大模型,论文实验表格多达十几个,看的出来是很用心的做了,YOLO官方也认可了这个起名。 之前本人写了一个 YOLO 合集的文章(迪迦奥特曼:从百度飞桨 YOLOSeries 库看各个 YOLO 模型:https://zhuanlan.zhihu.com/p/550
新智元编译 作者:Joseph Redmon、Ali Farhadi 翻译:肖琴 【新智元导读】你肯定很少见到这样的论文,全文像闲聊一样,不愧是YOLO的发明者。物体检测领域的经典论文YOLO(You Only Look Once)的两位作者,华盛顿大学的Joseph Redmon和Ali Farhadi最新提出了YOLO的第三版改进YOLO v3,一系列设计改进,使得新模型性能更好,速度更快。达到相似的性能时,相比SSD,速度提高3倍;相比RetinaNet,速度提高3.8倍。 代码地址: h
【新智元导读】你肯定很少见到这样的论文,全文像闲聊一样,不愧是YOLO的发明者。物体检测领域的经典论文YOLO(You Only Look Once)的两位作者,华盛顿大学的Joseph Redmon和Ali Farhadi最新提出了YOLO的第三版改进YOLO v3,一系列设计改进,使得新模型性能更好,速度更快。达到相似的性能时,相比SSD,速度提高3倍;相比RetinaNet,速度提高3.8倍。 代码地址:https://pjreddie.com/yolo/ 论文地址:https://pjreddie.
深度神经网络(DNNs)的采用对包括自动驾驶车辆[1],航空,医疗保健[2]和太空探索[3]在内的各个领域产生了重大影响,在这些领域中,高安全性和可靠性至关重要。这推动了专注于安全人工智能的计算机视觉研究社区的蓬勃发展,研究领域包括分布外检测[4],对抗性鲁棒性和模型互操作性[5]。基于DNN的计算机视觉模型处理图像以分类目标并预测它们的边界框。
如图1所示,还为具有较低计算能力的边缘计算设备设计了参数较少的轻量化模型,这也显示了更好的性能。 github:https://github.com/LSH9832/edgeyolo
论文地址:https://openaccess.thecvf.com/content/ACCV2020/papers/Zhang_Localize_to_Classify_and_Classify_to_Localize_Mutual_Guidance_in_ACCV_2020_paper.pdf
由于目标检测(Object Detection)主要需要解决“是什么?和 在哪里?”这两大问题,即对给定图像中的所有存在的目标,每个目标都要给出类别信息(是什么?)和位置信息(在哪里?)。这个位置信息通常用一个外接矩形框(俗称bounding box)来表示。因此,目标检测的性能度量方法要比图像分类任务复杂得多。本文我们来为大家介绍一下目标检测算法里常用的一些评价指标。
YOLOv4-large在COCO上最高可达55.8 AP!速度也高达15 FPS!YOLOv4-tiny的模型实现了1774 FPS!(在RTX 2080Ti上测试)
翻译 | AI科技大本营(ID:rgznai100) 参与 | shawn,刘畅 今年10月,何恺明的论文“Mask R-CNN”摘下ICCV 2017的最佳论文奖(Best Paper Award),如今,何恺明团队在Mask R-CNN的基础上更近一步,推出了 (以下称Mask^X R-CNN)。 这篇论文的第一作者是伯克利大学的在读博士生胡戎航(清华大学毕业),标题非常霸气,叫是“Learning to Segment Every Thing”。从标题上可以看出,这是一篇在实例分割问题(
路面路缘检测是自动驾驶的重要环节。 它可以用来确定道路边界,约束道路上的车辆,从而避免潜在的事故。 目前的大多数方法都是通过车载传感器在线检测路缘,比如摄像头或3D激光雷达。 然而,这些方法通常会有严重的咬合问题。 特别是在高度动态的交通环境中,大部分视场被动态物体所占据。 为了解决这一问题,本文采用高分辨率航拍图像对道路路缘进行离线检测。 此外,检测到的路缘可以用来为自动驾驶汽车创建高清地图。 具体来说,我们先预测路缘的像素分割图,然后进行一系列的后处理步骤提取路缘的图结构。 为了解决分割图中的不连通性问题,我们提出了一种新颖的保持连接丢失(CP-loss)方法来提高分割性能。 在公共数据集上的实验结果证明了本文提出的损失函数的有效性。
半监督网络的训练分两步进行:a)对标记数据独立训练学生模块,由教师模块生成伪标签;b)结合两个模块的训练,得到最终的预测结果。
相信不少人和文摘菌一样,一旦滑到可爱的狗子视频,都会忍不住多看几秒,然后狠狠地点个赞。
此外换模型训练调参也会引入更多的不确定性,而且往往业务数据集大则几十万张图片,重训成本很高,但训完了新的精度不一定更高,速度指标在特定机器环境上也未必可观,参数量、计算量的变化尤其在边缘设备上也不能忽视。
本文是YOLOv4的原班人马(包含CSPNet一作与YOLOv4一作AB大神)在YOLO系列的继续扩展,从影响模型扩展的几个不同因素出发,提出了两种分别适合于低端GPU和高端GPU的YOLO。该文所提出的YOLO-large在MSCOCO取得前所未有的精度(已公开的研究成果中最佳),且可以保持实时推理;所提出的YOLO-tiny在RTX 2080Ti显卡上结合TensorRT+FP16等技术,可以达到惊人的1774FPS@batch=4.
论文链接:https://arxiv.org/pdf/2006.06606.pdf
P-R曲线中,P为图中precision,即精准度,R为图中recall,即召回率。
与传统的计算机视觉技术不同,DETR将目标检测作为一个直接的集合预测问题来处理。它由一个基于集合的全局损失和一个Transformer encoder-decoder 结构组成,该全局损失通过二分匹配强制进行唯一预测。给定固定的学习对象查询集,则DETR会考虑对象与全局图像上下文之间的关系,以直接并行并行输出最终的预测集。由于这种并行性,DETR非常快速和高效。
期待已久的检测经典又来来了一波强袭——yolov5。其实yolov5没有完整的文件,现在最重要的应该是把yolov4弄清楚,在目标检测领域中受益匪浅,可以在某些场景得到较高的提升。今天我们还是给大家分享yolov4,下一期我们将yolov5好好讲清楚!
当前随着深度学习算法的的快速发展,出现了很多特征提取网络结构,可以提高算法的精度。但是需要在大数据集上对这些特征组合进行实际测试,并对结果进行理论验证。有些特征专门针对某些模型和某些问题,或者只针对小规模数据集;而一些其他的模型,如批处理标准化和剩余连接,适用于大多数模型、任务和数据集等。本文假设这些通用的模型包括:Weighted-Residual-Connections (WRC),Cross-Stage-Partial-connections(CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) andMish-activation。本文使用的一些新的网络结构包括:WRC,CSP,CmBN,SAT,Mish激活,马赛克数据增强,CmBN,DropBlock正则化和CIoU损失,并结合其中的几项来达到SOTA的表现结果。经过测试在MS COCO数据集上使用Tesla V100 GPU实时处理速度达到65FPS,精度为43.5%AP(65.7%AP50)。
领取专属 10元无门槛券
手把手带您无忧上云