昨天谷歌大脑团队发布了论文 EfficientDet: Scalable and Efficient Object Detection ,通过改进 FPN 中多尺度特征融合的结构和借鉴 EfficientNet 模型缩放方法,提出了一种模型可缩放且高效的目标检测算法 EfficientDet。
目标检测(Object Detection)的任务是找出图像或视频中的感兴趣目标,同时实现输出检测目标的位置和类别信息,是计算机视觉领域的核心问题之一。随着2012年ImageNet兴起的CNN,目标测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。在网络结构的设计上,从 two stage 到 one stage,从 bottom-up only 到 Top-Down,从 single scale network 到 feature pyramid network,各路大仙在backbone和特征提取、损失函数、NMS[1]、Anchor生成(free or no free)、IoU设计等各个环节分析短板,不断提高目标检测的性能。
文章结构 本文的第一部分关注检测模型的头部部分。对与每张图片,深度网络其实是通过级联的映射获得了在某一流形上的一个表征,这个表征相比原图片更有计算机视角下的语义性。例如,使用Softmax作为损失函数的分类网络,最后一层获得的张量常常展现出成簇的分布。深度网络因分布式表示带来的指数级增益,拥有远超其他机器学习模型的表示能力,近年来,有不少致力于对深度网络习得特征进行可视化的工作,为研究者提供了部分有直观意义的感知,如浅层学习线条纹理,深层学习物体轮廓。然而,现阶段的深度模型仍然是一个灰盒,缺乏有效的概念去描
为不同的视觉识别任务设计架构一直以来都很困难,而采用最广泛的架构是那些结合了简单和高效的架构,例如VGGNet和ResNet。最近,Vision Transformers(ViT)已经展现出了有前途的性能,并可以与卷积神经网络竞争,最近也有很多研究提出了很多的改进工作,将它们应用到不同的视觉任务。
实例分割一般有两种做法,一种是top-down,既先检测 bbox,后在每个bbox中进行mask的分割,例如Mask R-CNN。第二种为bottom-up做法,先分割出每一个像素,再进行归类。本文介绍的两篇论文另辟蹊径, 直接分割实例 mask,属于box-free的做法。正如YOLO大神Joseph Redmon所说“Boxes are stupid anyway though, I’m probably a true believer in masks except I can’t get YOLO to learn them“。本文就是摒弃了boxes进行实例分割,因此有必要对该论文进行深入分析。
工厂人员违规行为识别借助yolov5深度学习框架技术,YOLOv5是一种单阶段目标检测算法,该算法在YOLOv4的基础上添加了一些新的改进思路,使得其速度与精度都得到了极大的性能提升,具体包括:输入端的Mosaic数据增强、自适应锚框计算、自适应图片缩放操作;基准端的Focus结构与CSP结构;Neck端的SPP与FPN+PAN结构;输出端的损失函数GIOU_Loss以及预测框筛选的DIOU_nms。
论文: Fine-Grained Dynamic Head for Object Detection
AC-FPN——用于目标检测的注意力引导上下文的特征金字塔网络 ,即插即用的新FPN模 块,替换Cascade R-CNN、Mask R-CNN等网络中的FPN,可直接涨点2%-3%!
交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,尤其是多尺度目标检测和检测的实时性问题。在交通标志检测过程中,目标的规模变化很大,会对检测精度产生一定的影响。特征金字塔是解决这一问题的常用方法,但它可能会破坏交通标志在不同尺度上的特征一致性。而且,在实际应用中,普通方法难以在保证实时检测的同时提高多尺度交通标志的检测精度。 本文提出了一种改进的特征金字塔模型AF-FPN,该模型利用自适应注意模块(adaptive attention module, AAM)和特征增强模块(feature enhancement module, FEM)来减少特征图生成过程中的信息丢失,进而提高特征金字塔的表示能力。将YOLOv5中原有的特征金字塔网络替换为AF-FPN,在保证实时检测的前提下,提高了YOLOv5网络对多尺度目标的检测性能。 此外,提出了一种新的自动学习数据增强方法,以丰富数据集,提高模型的鲁棒性,使其更适合于实际场景。在100K (TT100K)数据集上的大量实验结果表明,与几种先进方法相比,本文方法的有效性和优越性得到了验证。
1. 后面实习要解决实例分割中的目标多尺度问题(当然不只是这个问题,还有其他的),为此对CNN中这几年的多尺度处理方法进行简要总结~_~,时间紧任务重,只记录了一点点东西,核心的还是要去看论文读代码。
SSD算法证明了多层分支对于目标检测的有效性,在此之前two-stage的目标检测方法已经优化改进过很多代,但是一直没有加入多尺度的方法。终于在FPN中,two-stage引入了多尺度,并且在SSD多层分支方法的基础上进一步改进,提出了特征金字塔网络。FPN的论文是《Feature Pyramid Networks for Object Detection》。
AI 科技评论按:在计算机视觉领域中,多维度目标检测一直被用作输入以生成反映不同维度信息的特征组合,这种办法能够有效表达图片上的各种维度特征,然而却对硬件计算能力及内存大小有较高要求,因此只能在有限的领域内部使用。Facebook 于 2016 年在论文《Feature Pyramid Networks for Object Detection》中提出的 FPN,通过利用常规 CNN 模型内部从底至上各个层对同一 scale 图片不同维度的特征表达结构,提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法。近期,Facebook 和谷歌接连发布了基于 FPN 的改进工作,我们将之整理如下。
我们提出了一个概念简单、灵活和通用的目标实例分割框架。我们的方法有效地检测图像中的目标,同时为每个实例生成高质量的分割掩码。该方法称为Mask R-CNN,通过添加一个分支来预测一个目标掩码,与现有的用于边界框识别的分支并行,从而扩展了Faster R-CNN。Mask R-CNN训练简单,只增加了一个小开销到Faster R-CNN,运行在5帧每秒。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在相同的框架下估计人类的姿态。我们展示了COCO套件中所有三个方面的顶级结果,包括实例分割、边界框目标检测和人员关键点检测。没有花哨的修饰,Mask R-CNN在每个任务上都比所有现有的单模型条目表现得更好,包括COCO 2016挑战赛冠军。我们希望我们的简单而有效的方法将作为一个坚实的baseline,并有助于简化未来在实例级识别方面的研究。
PANet是CVPR 2018的一篇实例分割论文,作者来自港中文,北大,商汤和腾讯优图。论文全称为:Path Aggregation Network for Instance Segmentation ,即用于实例分割的路径聚合网络。PANet在Nask RCNN的基础上做了多处改进,充在COCO 2017实例分割比赛上夺冠,同时也是目标检测比赛的第二名。接下来就一起来看看吧。
论文: FCOS: A Simple and Strong Anchor-freeObject Detector
目标检测系列: 目标检测(object detection)系列(一) R-CNN:CNN目标检测的开山之作 目标检测(object detection)系列(二) SPP-Net:让卷积计算可以共享 目标检测(object detection)系列(三) Fast R-CNN:end-to-end的愉快训练 目标检测(object detection)系列(四) Faster R-CNN:有RPN的Fast R-CNN 目标检测(object detection)系列(五) YOLO:目标检测的另一种打开方式 目标检测(object detection)系列(六) SSD:兼顾效率和准确性 目标检测(object detection)系列(七) R-FCN:位置敏感的Faster R-CNN 目标检测(object detection)系列(八) YOLOv2:更好,更快,更强 目标检测(object detection)系列(九) YOLOv3:取百家所长成一家之言 目标检测(object detection)系列(十) FPN:用特征金字塔引入多尺度 目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作 目标检测(object detection)系列(十二) CornerNet:anchor free的开端 目标检测(object detection)系列(十三) CenterNet:no Anchor,no NMS 目标检测(object detection)系列(十四)FCOS:用图像分割处理目标检测
在计算机视觉中,所有视觉可见的事物都可以描述成thing和stuff两种形式(thing指的是可数物体如人、动物、工具,stuff指的是具有相似结构或材料的非晶态区域如草、天空、道路),从而延申出了两类经典的计算机视觉任务:语义分割和实例分割。其中语义分割的任务是预测每个像素点的语义类别(即预测stuff),而实例分割的任务是预测每个实例物体包含的像素区域(即预测thing),分别如上图b和c所示。然而从图片中可以看出,语义分割和实例分割都不足以完备的描述出一副图像中的视觉信息,2019年FAIR首次提出全景分割的概念,全景分割任务需要同时预测出每个像素点赋予类别Label和实例ID(即同时预测thing和stuff,如图d所示),如果能够很好的解决全景分割任务,那么就能够完备的描述出一幅图像的视觉信息,对于无人驾驶、VR等场景来说,完备的场景解析是非常有意义的。
预告一下,最近无事,根据个人多年的证券操作策略和自己的浅显的AI时间序列的算法知识,还有自己Javascript的现学现卖,在微信小程序上弄了个简单的辅助系统。我先试试效果如何,不错的话将来弄个文章给大家介绍介绍。
RetinaNet 是通过对单目标检测模型 (如 YOLO 和 SSD) 进行两次改进而形成的:
在RetinaNet之前,目标检测领域一个普遍的现象就是two-stage的方法有更高的准确率,但是耗时也更严重,比如经典的Faster R-CNN,R-FCN,FPN等,而one-stage的方法效率更高,但是准确性要差一些,比如经典的YOLOv2,YOLOv3和SSD。这是两类方法本质上的思想不同带来这个普遍的结果,而RetinaNet的出现,在一定程度上改善了这个问题,让one-stage的方法具备了比two-stage方法更高的准确性,而且耗时更低。RetinaNet的论文是《Focal Loss for Dense Object Detection》。
交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,特别是对于多尺度目标的检测和检测的实时性问题。在交通标志检测过程中,目标的尺度变化很大,会对检测精度产生一定的影响。
近年来,深度卷积神经网络在计算机视觉上取得了优异的性能。深度卷积神经网络以精确地分类目标信息而闻名,并采用了简单的卷积体系结构来降低图层的复杂性。基于深度卷积神经网络概念设计的VGG网络。VGGNet在对大规模图像进行分类方面取得了巨大的性能。该网络设计了一堆小卷积滤波器,使网络结构非常简单,但网络有一些定位错误。
在深度学习兴起以前,很多传统方法都会使用到图像金字塔。图像金字塔如上图所示,就是将图片resize到不同的大小,然后分别得到对应大小的特征,然后进行预测。这种方法虽然可以一定程度上解决多尺度的问题,但是很明显,带来的计算量也非常大。
煤矿监管电子封条算法基于yolov5网络模型深度学习框架,先进技术的创新举措,煤矿监管电子封条算法通过在现场运料运人井口、回风井口、车辆出入口等关键位置进行人员进出、人数变化和设备开停等情况的识别和分析。煤矿监管电子封条算法YOLO检测速度非常快。标准版本的可以每秒处理 45 张图像。这就意味着煤矿监管电子封条算法 YOLO 可以以小于 25 毫秒延迟,实时地处理视频。
目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。本文将针对目标检测(Object Detection)这个机器视觉中的经典任务进行解析,抛砖引玉。如对文中的内容持不同观点,欢迎到SIGAI公众号发消息给我们,一起探讨!
口罩佩戴监测系统通过yolo网络对现场监控画面进行实时监测,比如工厂车间、商场或者食堂后厨人员口罩佩戴情况等。当口罩佩戴监测系统监测到工作人员进入监控画面却没有按照规定戴口罩时,不需要人工干预,系统立即抓拍告警及时提醒后台人员处理违规情况,避免更大损失的发生。YOLO是一个聪明的卷积神经网络(CNN),用于实时进行目标检测。该算法将单个神经网络应用于完整的图像,然后将图像划分为多个区域,并预测每个区域的边界框和概率,这些边界框是由预测的概率加权的。
加油站视频监控智能分析盒基于yolov5人工智能视觉技术,加油站视频监控智能分析盒对现场画面中明火和烟雾以及人员抽烟、打电话等违规行为进行识别。除此之外,加油站视频监控智能分析盒还可以对现场画面中卸油时灭火器未按要求正确摆放以及静电释放时间不足和人员离岗等不规范行为进行自动预警。YOLOv5在YOLOv4算法的基础上做了进一步的改进,检测性能得到进一步的提升。虽然YOLOv5算法并没有与YOLOv4算法进行性能比较与分析,但是YOLOv5在COCO数据集上面的测试效果还是挺不错的。
作者灯会为21届中部985研究生,凭借自己整理的面经,去年在腾讯优图暑期实习,七月份将入职百度cv算法工程师。在去年灰飞烟灭的算法求职季中,经过30+场不同公司以及不同部门的面试中积累出了CV总复习系列,此为目标检测篇。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
代码已上传至:https://github.com/cristianoc20/Rebar_Detection,欢迎各位给个star
负责提供周围目标的精确3D边界框的3D目标检测是自动驾驶中必不可少的环境感知任务。最近,依靠激光雷达的精确深度测量,基于激光雷达的检测器取得了优异的性能。然而,LIDAR系统的一些固有缺陷,例如高成本和对不利天气条件的敏感性,不可避免地限制了这些方法的应用。相比之下,摄像机传感器更经济,在雨雪天气下更耐用,并且可以满足严格的车辆法规。
目标检测对光学遥感图像的解释至关重要,可以作为研究利用遥感的其他视觉任务的基础。然而,目前在光学遥感图像中使用的目标检测网络没有充分利用特征金字塔的输出,因此仍有改进检测的潜力。
本文YOLOV4论文总结分析的第二篇,其主要分析了数据增强和特征擦除手段,包括random erasing、cutout、hide-and-seek、grid mask、Adversarial Erasing、mixup、cutmix、mosaic、Stylized-ImageNet、label smooth、dropout和dropblock,本文分析各种BN改进、网络感受野增强技巧、注意力机制和特征融合技巧。
COCO 数据集上的目标检测精度的最高纪录已经有将近一年时间停留在53.3 mAP,曾经报告达到过这一高度的算法有:
上篇文章介绍了 FCN,这篇文章引入个新的概念 Mask-RCNN,看着比较好理解哈,就是在 RCNN 的基础上添加 Mask。
本文梳理了目标检测领域2013年至2019年的12篇必读论文,为希望学习相关知识的新手提供了很好的入门路径。同时,作者还提供了一个附加论文列表。作为拓展阅读的内容,它们或为目标检测提供了新的视角,或用更强大的功能扩展了这个领域。
从2018年Yolov3年提出的两年后,在原作者声名放弃更新Yolo算法后,俄罗斯的Alexey大神扛起了Yolov4的大旗。
通过更好的模型架构、训练和推理方法的结合,目标检测系统的速度-精度Pareto曲线得到了改进。在本文中系统地评估了各种各样的技术,以理解现代检测系统的大多数改进来自哪里。
离岗识别算法模型通过yolov5网络模型技术,离岗识别可以自动识别现场画面中人员离岗等行为,发现违规行为立即抓拍告警。YOLO5系列算法是一类典型的one-stage目标检测算法,其利用anchor box将分类与目标定位的回归问题结合起来,从而做到了高效、灵活和泛化性能好,所以在工业界也十分受欢迎,接下来我们介绍YOLO 系列算法。Yolo意思是You Only Look Once,它并没有真正的去掉候选区域,而是创造性的将候选区和目标分类合二为一,看一眼图片就能知道有哪些对象以及它们的位置。Yolo模型采用预定义预测区域的方法来完成目标检测,具体而言是将原始图像划分为 7x7=49 个网格(grid),每个网格允许预测出2个边框(bounding box,包含某个对象的矩形框),总共 49x2=98 个bounding box。我们将其理解为98个预测区,很粗略的覆盖了图片的整个区域,就在这98个预测区中进行目标检测。
💡💡💡本文独家改进:高层筛选特征金字塔网络(HS-FPN),能够刷选出大小目标,增强模型表达不同尺度特征的能力,助力小目标检测
论文题目:Feature Pyramid Networks for Object Detection
员工工作服穿戴AI识别算法是基于yolov5+python网络模型人工智能技术,yolov5+python网络模型算法对现场人员的工作服穿戴情况进行实时监控,并对违规情况将自动发出警报。我们选择当下YOLO卷积神经网络YOLOv5来进行火焰识别检测。现版本的YOLOv5每个图像的推理时间最快0.007秒,即每秒140帧(FPS),但YOLOv5的权重文件大小只有YOLOv4的1/9。目标检测架构分为两种,一种是two-stage,一种是one-stage,区别就在于 two-stage 有region proposal过程,类似于一种海选过程,网络会根据候选区域生成位置和类别,而one-stage直接从图片生成位置和类别。今天提到的 YOLO就是一种 one-stage方法。YOLO是You Only Look Once的缩写,意思是神经网络只需要看一次图片,就能输出结果。
人数超员识别系统基于计算机视觉分析技术yolov5网络架构对监控摄像头视频采集的画面实时分析,如果人数超员识别系统监测到作业区域超员时,立刻抓拍存档并同步报警回传给后台监控管理中心,提示后台人员及时进行处理。YOLOv5算法具有4个版本,具体包括:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四种,本文重点讲解YOLOv5s,其它的版本都在该版本的基础上对网络进行加深与加宽。
动机 尽管两阶段检测器取得了成功,那么问题就是:一个简单的单阶段能达到类似的精度吗?单阶段应用于目标位置、尺度和纵横比的常规、密集采样。最近在YOLO和SSD等单阶段上的研究显示出了很有前景的结果,与
Cross Stage Partial Network(CSPNet)就是从网络结构设计的角度来解决以往工作在推理过程中需要很大计算量的问题。
RetinaFace是2019年5月来自InsightFace的又一力作,它是一个鲁棒性较强的人脸检测器。它在目标检测这一块的变动其实并不大,主要贡献是新增了一个人脸关键点回归分支(5个人脸关键点)和一个自监督学习分支(主要是和3D有关),加入的任务可以用下图来表示:
1、Improved detection of small objects in road network sequences using CNN and super resolution
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 源代码:https://arxiv.org/pdf/2112.08782.pdf 计算机视觉研究院专栏 作者:Edison_G 随着世界迈向第四次工业革命,电动车越来越普遍,但是路上的交通标志也五花八门,如果利用计算机视觉技术可以全部检测识别,那也是一大进步! 一、前言 交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,特别是对于多尺度目标的检测和检测的实时性问题。在交通
领取专属 10元无门槛券
手把手带您无忧上云