本文,将向大家介绍 CSS 规范中,最新的 Anchor Positioning,翻译为锚点定位。
最近,Chrome 发布了 Chrome 125 稳定版本,其中我觉得最有亮点的新特性就是 CSS 锚点定位了。
论文地址:https://arxiv.org/pdf/2005.04854.pdf
论文地址:https://arxiv.org/pdf/1912.02252.pdf
AI 科技评论按:本文作者陈恺,该文首发于知乎,雷锋网 AI 科技评论获其授权转载。
看过前几天【CNN调参】目标检测算法优化技巧的同学应该知道,ASFF的作者在构建Stronger YOLOV3 BaseLine的时候就用到了Guided Anchoring这种Trick。这篇论文题目为《Region Proposal by Guided Anchoring》,中了CVPR 2019。这篇论文提出了一种新的Anchor生成方法Guided Anchoring,不同于以前的固定Anchor或者根据数据进行聚类Anchor的做法,通过Guided Anchoring可以预测Anchor的形状和位置得到稀疏的Anchor,另外作者提出了Feature Adaption模块使得Anchor和特征更加匹配。论文作者也在知乎上清晰的介绍了这项工作,感兴趣可以去看看作者是如何思考的。地址为:https://zhuanlan.zhihu.com/p/55854246。
对于一般的目标检测 loss 计算,通常分为几部分。比如 yolo 系列分为 objectness(是否包含目标)、classification(目标分类)、boundingbox-regression(目标位置)。其中,每个样本都需要计算 objectness 得分的损失,正样本需要计算 classification 和 bbox-regression 损失,其中每种损失又有不同的计算方式和组合方法,比如 bbox-regression 有 D_IoU、G_IoU、C_IoU 等等,组合方法有 Focal Loss 等等。但是这些不是我们这篇文章关注的重点。
1. Feature Selective Anchor-Free Module for Single-Shot Object Detection
之前自己所做的检测工作也经历一个从直接预测到选择加入 anchor 的过程。从 Two-stage -> One-Stage -> Two-stage 的技术倾向。
人脸检测领域目前主要的难点集中在小尺寸,模糊人脸,以及遮挡人脸的检测,这篇ICCV2017的S3FD(全称:Single Shot Scale-invariant Face Detector)即是在小尺寸人脸检测上发力。
AI科技评论按:本文首发于知乎专栏Learning Machine,作者张潇捷, AI科技评论获其授权转载。 前段时间学完Udacity的机器学习和深度学习的课程,感觉只能算刚刚摸到深度学习的门槛,于是开始看斯坦福的cs231n(http://cs231n.stanford.edu/syllabus.html),一不小心便入了计算机视觉的坑。原来除了识别物体,还可以进行定位(localization),检测(object detection),语义分割(semantic segmentation),实例分割
为此,论文提出Guided Anchoring来根据图片特征在线生成anchor。首先判断目标可能出现的位置,然后学习不同位置上的目标的形状,可根据图片特征在线学习稀疏的候选anchor。然而,在线生成的anchor形状各异,固定的感受域可能不匹配其形状,所以Guided Anchoring根据anchor的形状进行自适应特征提取,然后再进行预测框精调与分类。
又一篇anchor匹配策略的文章,不过确实是简单有效,在ATSS上只需要很小的修改就可以提升性能。GFL2在框的预测上用上了概率分布,这里又在anchor匹配上用上了概率分布。
论文标题:《Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection》
基于无anchor机制的特征选择模块,是一个简单高效的单阶段组件,其可以结合特征金字塔嵌入到单阶段检测器中。FSAF解决了传统基于anchor机制的两个限制:
论文: Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection
论文地址:https://arxiv.org/pdf/1901.03278.pdf
。这个方法显然存在一些问题,比如当物体是不同大小有不同的宽高比,那训练一个效果很好的检测模型将会是非常复杂的(复杂的原因有两个,一个是如果整个图片很大,那么预测出的边界框坐标的绝对值变化很大,不容易拟合;第二个原因则是框的大小长宽都在变化,加大了我们的拟合难度)。另一个问题则是会存在一些无效的预测,比如当预测
论文:Cascade RPN: Delving into High-Quality Region Proposal Network with Adaptive Convolution
七期飞跃计划还剩7个名额,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO1)
本文从head和loss出发,对mmdetection复现的Yolo v3 进行解析,文章梳理了整个训练的流程并head和loss的部分进行了大篇幅的讲解。
Anchor是Faster RCNN中的一个重要的概念,在对图像中的物体进行分类检测之前,先要生成一系列候选的检测框,以便于神经网络进行分类和识别。
当初写这篇博客的初衷只是记录自己学习SSD的一些心得体会,纯属学习笔记,后来由于工作上的需要,需要对小伙伴进行目标检测方面的培训,后来就基于这篇博客进行了扩展,逐渐演变成了现在的样子,本文力求从一个初学者的角度去讲述目标检测和SSD(但是需要你具备CNN的基础),尽量使用通俗的语言并结合图表的方式让更多初学者更容易理解SSD这个算法,但是一个人的时间精力有限,不可能深入理解SSD的每一个细节,加上表达能力也有限,自己理解了的东西不一定在文中能够说明白,文中有什么不妥的地方,欢迎大家批评指正,也欢迎留言一起交流讨论。
论文地址:https://arxiv.org/pdf/1912.02424.pdf
四期飞跃计划还剩最后一个名额,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO2)
论文地址:https://openaccess.thecvf.com/content/ACCV2020/papers/Zhang_Localize_to_Classify_and_Classify_to_Localize_Mutual_Guidance_in_ACCV_2020_paper.pdf
众所周知,Yolo v3 是一个非常优秀和主流的目标检测算法,各类复现、解读层出不穷。而且又有v4和v5等版本持续发力,但其基本结构和计算逻辑并无太大的变化。mmdetection是一个非常优秀的目标检测开源训练框架,其复现的Yolo v3算法结构非常清晰,实现的颗粒度更细,模块化做的更好,非常适合理解和学习。本文着眼Yolo v3的设计精髓——head和loss部分,结合代码对其实现进行解析,供大家参考。
Mac 系统从 10.7 (Lion) 开始就内置了两种防火墙, PF 和 应用防火墙,默认情况下他们都是禁用状态。
转载请注明作者:梦里茶 Faster RCNN在Fast RCNN上更进一步,将Region Proposal也用神经网络来做,如果说Fast RCNN的最大贡献是ROI pooling layer和Multi task,那么RPN(Region Proposal Networks)就是Faster RCNN的最大亮点了。使用RPN产生的proposals比selective search要少很多(300vs2000),因此也一定程度上减少了后面detection的计算量。 Introduction Fa
全卷积的 one-stage目标检测器(FCOS),对每个像素进行预测的方式来解决目标检测问题,类似于语义分割。FCOS 不需要 anchor box,同时也不需要 proposals,由于消除了对预定义 anchor 的依赖,因此避免了与 anchor box相关的复杂计算,同时还避免了与 anchor相关的所有超参数,例如:尺寸、宽高比、数量等,通常这些参数对最终检测性能非常敏感。FCOS 优于之前的 anchor-based one-stage detectors。
解析 访问该页面的地址:http://127.0.0.1/anchor.html(我是在本地服务器上测试的) 点击a链接锚点1,则页面会直接跳到红色的div(锚点1),同时,浏览器地址改变为http://127.0.0.1/anchor.html#anchor1 虽然可以直接定位到制定的位置,但是效果很差,没有平缓的过渡效果。
kmeans,中心点个数是需要人为指定的,位置可以随机初始化,但是还需要度量到聚类中心的距离。这里怎么度量这个距离是很关键的。
loss的计算过程需要知道真值和预测值。所以求取loss的过程就是真值与预测值求取的过程。
从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个机器学习算法来完成。训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training dataset)。学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”(hypothesis);这种潜在规律自身,则称为“真相”或“真实”(groun truth),学习过程就是为了找出或逼近真相。
目标检测是很多计算机视觉应用的基础,比如实例分割、人体关键点提取、人脸识别等,它结合了目标分类和定位两个任务。现代大多数目标检测器的框架是 two-stage,其中目标检测被定义为一个多任务学习问题:1)区分前景物体框与背景并为它们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其它指标。最后,通过一个 NMS 过程移除冗余的边界框(对同一目标的重复检测)。本文首先综述近年来二维目标检测的优化方向,之后介绍CVPR2019目标检测最新进展,包括优化IoU的GIoU,优化anchor设计的GA-RPN,以及single-stage detection的FSAF。
回顾一下上节推文的内容,我们将Faster RCNN的数据预处理以及实现细节弄清楚了,并将其总结为了下图:
之前已经讲了一些目标检测原理性的东西了,今天讲一个偏工程一点的东西,就是如何在使用YOLO算法的时候针对自己的数据集获得合适的Anchor?
转载请注明作者:梦里茶 Single Shot MultiBox Detector Introduction 一句话概括:SSD就是关于类别的多尺度RPN网络 基本思路: 基础网络后接多层fea
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/124960.html原文链接:https://javaforall.cn
本文就是大名鼎鼎的focalloss中提出的网络,其基本结构backbone+fpn+head也是目前目标检测算法的标准结构。RetinaNet凭借结构精简,清晰明了、可扩展性强、效果优秀,成为了很多算法的baseline。本文不去过多从理论分析focalloss的机制,从代码角度解析RetinaNet的实现过程,尤其是anchor生成与匹配、loss计算过程。
目标检测是计算机视觉中的一个基本问题,它可以同时分类和定位图像或视频中的所有目标。随着深度学习的快速发展,目标检测取得了巨大的成功,并被应用于许多任务,如目标跟踪、图像分类、图像分割和医学图像分析。
标注核心要点:QChart类提供了两种方法来映射场景坐标和系列域(由坐标轴范围定义)。
OCR(光学字符识别)是CV一个重要的研究领域,OCR分成文本检测和文本识别两个步骤,其中文本准确检测的困难性又是OCR中最难的一环,而本文介绍的CTPN则是文本检测中的一个里程碑的模型。
论文:RepPoints: Point Set Representation for Object Detection
图片在输入网络后,依次经过一系列卷积+ReLU得到的51×39×256维feature map,准备后续用来选取proposal。
RPN 的用途在于, 判断需要处理的图片区域(where), 以降低推断时的计算量.
前几天更了一篇超全的Anchor文章:目标检测最新方向:推翻固有设置,不再一成不变Anchor,但其中并没有包含本文分享的论文。
本文主要分享的是CTPN,paper名称是Detecting Text in Natural Image with
领取专属 10元无门槛券
手把手带您无忧上云