开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

libvips最近邻/双三次深度缩放金字塔创建

libvips是一个开源的图像处理库，它提供了高效、快速的图像处理功能。最近邻/双三次深度缩放金字塔创建是libvips库中的一个功能，用于对图像进行缩放操作。

最近邻缩放是一种简单的缩放算法，它通过选择最接近目标像素的原始像素来进行缩放。这种算法的优势是速度快，但可能会导致图像边缘的锯齿状效果。

双三次深度缩放是一种更高质量的缩放算法，它通过对目标像素周围的原始像素进行加权平均来计算新像素的值。这种算法可以产生更平滑的缩放效果，但相对于最近邻缩放而言，计算量较大，速度较慢。

金字塔创建是libvips库中的一个功能，它可以根据原始图像创建一个多层次的图像金字塔。图像金字塔是一种数据结构，它包含了原始图像的多个不同分辨率的版本。通过使用图像金字塔，可以在不同的缩放级别上进行快速的图像处理操作，从而提高处理效率。

libvips库的应用场景非常广泛，包括但不限于图像处理、图像缩放、图像裁剪、图像转换、图像合成等。它可以用于各种领域，如互联网应用、移动应用、媒体处理、人工智能等。

腾讯云提供了一系列与图像处理相关的产品，其中包括云图像处理（Cloud Image Processing，CIP）服务。CIP提供了丰富的图像处理功能，可以满足各种图像处理需求。您可以通过以下链接了解更多关于腾讯云图像处理服务的信息：腾讯云图像处理（CIP）

总结：libvips是一个开源的图像处理库，最近邻/双三次深度缩放金字塔创建是其提供的一种图像缩放功能。它可以应用于各种图像处理场景，并且腾讯云提供了与图像处理相关的产品，如云图像处理服务，可以满足各种图像处理需求。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Cycle-Dehaze: Enhanced CycleGAN for Single Image Dehazing

在这篇文章中，我们提出了一个端到端的网络，称为Cycle-Dehaze，为单一图像去雾问题，它配对的有雾图像和其对应的图像进行训练。也就是说，我们通过以不成对的方式加入干净和模糊的图像来训练网络。此外，所提出的方法不依赖于大气散射模型参数的估计。我们的方法通过结合循环一致性和感知损失来增强CycleGAN方法，以提高纹理信息恢复的质量，并生成视觉上更好的无雾霾图像。典型地，用于去雾的深度学习模型将低分辨率图像作为输入并产生低分辨率输出。然而，在NTIRE 2018单幅图像去雾挑战中，提供了高分辨率图像。因此，我们应用双三次降尺度。从网络获得低分辨率输出后，我们利用拉普拉斯金字塔将输出图像提升到原始分辨率。我们在NYU-Depth、, I-HAZE, and O-HAZE数据集上进行了实验。大量实验表明，该方法从定量和定性两个方面改进了CycleGAN方法。

02

OpenCV 图片缩放

对图像进行缩放的最简单方法就是调用OpenCV中resize函数。resize函数可以将源图像精确地转化为指定尺寸的目标图像。要缩小图像，一般推荐使用CV_INETR_AREA来插值；若要放大图像，推荐使用CV_INTER_LINEAR。

02

【工程应用一】多目标多角度的快速模板匹配算法（基于NCC，效果无限接近Halcon中........)

愿意写代码的人一般都不太愿意去写文章，因为代码方面的艺术和文字中的美学往往很难兼得，两者都兼得的人通常都已经被西方极乐世界所收罗，我也是只喜欢写代码，让那些字母组成美妙的歌曲，然后自我沉浸在其中自得其乐。而今天，在清明之际，在踏青时节，我还是忍不住停下来歇歇脚，稍微共享一下最近一直研究的一个非常基础的算法和应用 - 多目标多角度的模板匹配。

06

前沿 | Kaiming He和Ross Girshick大神最新力作TensorMask深入解读

论文名称：TensorMask: A Foundation for Dense Object Segmentation

05

Unity通用渲染管线（URP）系列（十一）——后处理（Bloom）

这是关于创建自定义脚本渲染管道的教程系列的第11部分。它增加了对后处理的支持，目前只支持bloom。

01

ArcMap中构建金字塔详解

金字塔可用于改善性能。它们是原始栅格数据集的缩减采样版本，可包含多个缩减采样图层。金字塔的各个连续图层均以 2:1 的比例进行缩减采样。如下图所示。从金字塔的底层开始每四个相邻的像素经过重采样生成一个新的像素，依此重复进行，直到金字塔的顶层。重采样的方法一般有以下三种: 双线性插值（BILINEAR）、最临近像元法（NEAREST）、三次卷积法（CUBIC）。其中最临近像元法速度最快，如果对图像的边缘要求不是很高，最适合使用该方法。三次卷积由于考虑的参考点数太多、运算较复杂等原因，速度最慢，但是重采样后图像的灰度效果较好。

01

"羊驼"入侵CV，美团&浙大沈春华团队将LLaMA向CV扩展，构建全新基础模型VisionLLaMA

大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗？在本文中，我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题，称为 VisionLLaMA。VisionLLaMA 是一个统一的通用建模框架，用于解决大多数视觉任务。

01

详解计算机视觉中的特征点检测：Harris / SIFT / SURF / ORB

本文详细论述了四个特征点检测算法：Harris, SIFT，SURF以及ORB的思路步骤以及特点，分析了它们的局限性，并对几个重要问题进行了探讨。

03

目标检测 | FPN，多尺度目标检测经典Backbone

作者提到，在2017年以前，目标检测中的一个基本挑战就是目标检测模型在处理目标多尺度变化问题的不足，因为在当时很多网络都使用了利用单个高层特征，(比如说Faster R-CNN利用下采样四倍的卷积层——Conv4，进行后续的物体的分类和bounding box的回归)，但是这样做有一个明显的缺陷，即小物体本身具有的像素信息较少，在下采样的过程中极易被丢失，而之前的图像金字塔结构虽然也能解决多尺度问题，但计算量大，内存消耗大，因此作者提出了特征金字塔结构，能在增加极小的计算量的情况下，处理好物体检测中的多尺度变化问题。

03

M2Det: A Single-Shot Object Detector based on Multi-Level读)

为解决目标实例尺度变化带来的问题，特征金字塔广泛用在一阶段目标检测器(比如，DSSD，RetinaNet，RefineDet)和两阶段目标检测器(比如Mask R-CNN， DetNet)。尽管这些使用特征金子塔的目标检测器具有很好的结果，但是由于仅仅根据固有的多尺度(为目标分类任务而设计的骨干的金字塔结构)。最新的，在这个工作中，作者提出了一个方法称为多级金字塔网络(Multi-Level Feature Pyramid Network, MLFPN)来构建检测不同尺度目标更有效的金子塔。

03

目标检测FPN

《Feature Pyramid Networks for Object Detection》这篇文章主要是用来解决Faster RCNN物体检测算法在处理多尺度变化问题时的不足。Faster RCNN中无论是RPN网络还是Fast RCNN网络，都是基于单个高层特征。这种做法一个明显的缺陷是对小物体不友好。为了处理小物体，经典的方式是采用图像金字塔的方式在训练或测试阶段对图片进行多尺度变化增强，但是这样带来了极大的计算量。本文方法通过构造一种独特的特征金字塔来避免图像金字塔的计算量过高的问题，同时能较好的处理物体检测中的多尺度变化问题。

02

A full data augmentation pipeline for small object detection based on GAN

小物体（即32×32像素以下的物体）的物体检测精度落后于大物体。为了解决这个问题，我们设计了创新的体系结构，并发布了新的数据集。尽管如此，许多数据集中的小目标数量不足以进行训练。生成对抗性网络（GAN）的出现为训练体系结构开辟了一种新的数据增强可能性，而无需为小目标注释巨大数据集这一昂贵的任务。在本文中，我们提出了一种用于小目标检测的数据增强的完整流程，该流程将基于GAN的目标生成器与目标分割、图像修复和图像混合技术相结合，以实现高质量的合成数据。我们的流水线的主要组件是DS-GAN，这是一种基于GAN的新型架构，可以从较大的对象生成逼真的小对象。实验结果表明，我们的整体数据增强方法将最先进模型的性能提高了11.9%AP@。在UAVDT上5 s和4.7%AP@。iSAID上的5s，无论是对于小目标子集还是对于训练实例数量有限的场景。

02

Open-CV图像处理

图像的仿射变换涉及到图像的形状位置角度的变化，是深度学习预处理中常到的功能,仿射变换主要是对图像的缩放，旋转，翻转和平移等操作的组合。

01

C#图像插值算法

过Image<TColor,TDepth> method 来实现，这边主要讲解前者。

03

mask scoring rcnn_faster rcnn详解

对应着图像中的CNN部分，其对输入进来的图片有尺寸要求，需要可以整除2的6次方。在进行特征提取后，利用长宽压缩了两次、三次、四次、五次的特征层来进行特征金字塔结构的构造。Mask-RCNN使用Resnet101作为主干特征提取网络

02

【私人整理】空间金字塔池化网络SPPNet详解

之前的深度卷积神经网络（CNNs）都需要输入的图像尺寸固定（比如224×224）。这种人为的需要导致面对任意尺寸和比例的图像或子图像时降低识别的精度。为什么会降低精度呢？由于输入的图像大小固定，即数据维度固定，但是现实样本中往往很多样本是大小不一的，为了产生固定输入大小的样本，有两种主要的预处理措施：

06

目标检测——SPPNet【含全网最全翻译】「建议收藏」

论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 空间金字塔池化，大神何恺明于2014年写的paper: 论文地址：https://arxiv.org/pdf/1406.4729.pdf RCNN在2013年发表后，大佬在2014年提出了空间金字塔池化，性能和准确率都大幅提高，且在后面很多网络中都延续了这一思想。这篇文章比较长，我们也基于论文将其大体翻译了一下，伙伴们要耐心看呀！那么让我们一起开始学习吧！先放上大佬的照片来镇楼：

01

全新FPN开源 | CFPNet即插即用，助力检测涨点，YOLOX/YOLOv5均有效

目标检测是计算机视觉领域最基本但最具挑战性的研究任务之一，其目的是为输入图像中的每个目标预测唯一的边界框，该边界框不仅包含位置，还包含类别信息。在过去几年中，这项任务已被广泛开发并应用于广泛的潜在应用，例如自动驾驶和计算机辅助诊断。

03

FPN（特征图金字塔网络）理论基础与具体实现

论文地址：Feature Pyramid Networks for Object Detection

01

人脸识别系列三 | MTCNN算法详解下篇

上篇讲解了MTCNN算法的算法原理以及训练细节，这篇文章主要从源码实现的角度来解析一下MTCNN算法。我要解析的代码来自github的https://github.com/ElegantGod/ncnn中的mtcnn.cpp。

03

远距离和遮挡下三维目标检测算法研究

近年来，随着卷积神经网络[1-2]的提出及其在计算机视觉[3]和自然语言处理[4]等领域的广泛应用，使得深度学习在二维的图像识别[5]、语义分割[6]以及目标检测[7]等领域有了重要的突破。目前，基于二维图像的目标检测算法已趋于成熟，并已经被广泛地应用到我们的生活中。

01

cvpr目标检测_目标检测指标

Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper , we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A topdown architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using FPN in a basic Faster R-CNN system, our method achieves state-of-the-art singlemodel results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 6 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.

04

全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)

特征金字塔网络(FPN)已成为目标检测中提取多尺度特征的有效框架。然而，目前FPN-based的方法大多存在Channel Reduction的固有缺陷，导致语义信息的丢失。而融合后的各种特征图可能会造成严重的混叠效果。

02

即插即用 | S-FPN全新的金字塔网络，更适合轻量化模型的FPN

过去的许多研究表明，特征金字塔中的特征图可以在不同尺度上捕捉物体的视觉特征。浅层保留了细节，如纹理、角落等；深层覆盖了更广泛的语义特征。在真实的场景中，不同大小的物体经常出现在一起，如何同时检测它们成为一个关键问题。而FPN的出现显著提高了目标检测性能，并成为大多数SoTA目标检测器的标准组成部分。

01

【CV中的特征金字塔】五，Google Brain EfficientDet

上周六解读了Google Brain在2019年的大作EfficientNet，可以在这个链接找到：卷积神经网络学习路线（二十二）| Google Brain EfficientNet。紧接着Google Brain又提出了这篇EfficientDet一举刷新MS COCO数据集的目标检测精度，今天就一起来看看这篇论文的核心思想吧。论文原文见附录，代码实现官方没开源，文后有一个别人复现的链接。

01

Unity通用渲染管线（URP）系列（十六）——渲染缩放（Scaling Up and Down）

这是关于创建自定义脚本渲染管道系列教程的第16部分。它是关于将渲染分辨率与目标缓冲区大小解耦的。

02

卷积神经网络学习路线（十三）| CVPR2017 Deep Pyramidal Residual Networks

深度残差金字塔网络是CVPR2017年的一篇文章，由韩国科学技术院的Dongyoon Han, Jiwhan Kim发表，改善了ResNet。其改用加法金字塔来逐步增加维度，还用了零填充直连的恒等映射，网络更宽，准确度更高，超过了DenseNet，泛化能力更强。论文原文见附录。

01

基础渲染系列（十五）——延迟光照

这是关于渲染的系列教程的第15部分。在上一部分中，我们添加了雾。现在，我们将创建自己的延迟光照。

01

在目标检测中如何解决小目标的问题？

在深度学习目标检测中，特别是人脸检测中，由于分辨率低、图像模糊、信息少、噪声多，小目标和小人脸的检测一直是一个实用和常见的难点问题。然而，在过去几年的发展中，也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。

01

Feature Pyramid Networks for Object Detection

特征金字塔是不同尺度目标识别系统的基本组成部分。但最近的深度学习对象检测器已经避免了金字塔表示，部分原因是它们需要大量的计算和内存。本文利用深卷积网络固有的多尺度金字塔结构构造了具有边际额外成本的特征金字塔。提出了一种具有横向连接的自顶向下体系结构，用于在所有尺度上构建高级语义特征图。该体系结构称为特征金字塔网络(FPN)，作为一种通用的特征提取器，它在几个应用程序中得到了显著的改进。在一个基本的Fasater R-CNN系统中使用FPN，我们的方法在COCO检测基准上实现了最先进的单模型结果，没有任何附加条件，超过了所有现有的单模型条目，包括来自COCO 2016挑战赛冠军的条目。此外，我们的方法可以在GPU上以每秒6帧的速度运行，因此是一种实用而准确的多尺度目标检测解决方案。

02

目标检测 | 解决小目标检测！多尺度方法汇总

最开始在深度学习方法流行之前，对于不同尺度的目标，大家普遍使用将原图构建出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标，以求在金字塔底部检测出小目标；或者只用一个原图，在原图上，用不同分辨率的分类器来检测目标，以求在比较小的窗口分类器中检测到小目标。经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架，均使用图像金字塔的方式处理多尺度目标，早期的CNN目标识别框架同样采用该方式，但对图像金字塔中的每一层分别进行CNN提取特征，耗时与内存消耗均无法满足需求。但该方式毫无疑问仍然是最优的。值得一提的是，其实目前大多数深度学习算法提交结果进行排名的时候，大多使用多尺度测试。同时类似于SNIP使用多尺度训练，均是图像金字塔的多尺度处理。

03

SPPNet（2015）

RCNN首次将卷积操作引入检测领域用于提取特征，然而现有的深度卷积网络需要输入固定尺寸的图片，这个需求可能会导致对于任意scale/size的图片的识别精确度下降。【深度卷积神经网络由卷积层和全连接层组成，卷积层对于任意大小的图片都可以进行卷积运算提取特征，输出任意大小的特征映射，而全连接层由于本身的性质需要输入固定大小的特征尺度，所以固定尺寸的需求来自于FC层，即使对输入图片进行裁剪、扭曲等变换，调整到统一的size，也会导致原图有不同程度失真、识别精度受到影响】SPPNet提出了**“空间金字塔池化”**消除这种需求，不管图像大小是多大，在整张图片上只需要计算一次，就可以得到整幅图像的特征图，经过池化都会输出一个固定长度的表征。

02

深度学习在人脸检测中的应用 | CSDN 博文精选

在目标检测领域，可以划分为人脸检测与通用目标检测，往往人脸这方面会有专门的算法（包括人脸检测、人脸识别、人脸其他属性的识别等），并且和通用目标检测（识别）会有一定的差别。这主要来源于人脸的特殊性（譬如有时候目标比较小、人脸之间特征不明显、遮挡问题等），本文将主要从人脸检测方面来讲解目标检测。

00

深度学习500问——Chapter08：目标检测（7）

RFBNet主要想利用一些技巧使得轻量级模型在速度和精度上达到很好的trade-off的检测器。灵感来自人类视觉的感受野结构Receptive Fields（RFs），提出了新奇的RF block（RFB）模块，来验证感受野尺寸和方向性的对提高有鉴别器鲁棒特征的关系。RFBNet是以主干网络（backbone）为VGG 16的SSD来构建的，主要是在Inception的基础上加入了dilated卷积层（dilated convolution），从而有效增大了感受野（receptive field）。整体上因为是基于SSD网络进行改进，所以检测数据还是比较快，同时精度也有一定的保证。

01

细粒度特征提取和定位用于目标检测（附论文下载）

近年来，深度卷积神经网络在计算机视觉上取得了优异的性能。深度卷积神经网络以精确地分类目标信息而闻名，并采用了简单的卷积体系结构来降低图层的复杂性。基于深度卷积神经网络概念设计的VGG网络。VGGNet在对大规模图像进行分类方面取得了巨大的性能。该网络设计了一堆小卷积滤波器，使网络结构非常简单，但网络有一些定位错误。

01

PPCNN：细粒度特征提取和定位用于目标检测（附论文下载）

近年来，深度卷积神经网络在计算机视觉上取得了优异的性能。深度卷积神经网络以精确地分类目标信息而闻名，并采用了简单的卷积体系结构来降低图层的复杂性。基于深度卷积神经网络概念设计的VGG网络。VGGNet在对大规模图像进行分类方面取得了巨大的性能。该网络设计了一堆小卷积滤波器，使网络结构非常简单，但网络有一些定位错误。

02

『人脸识别系列教程』0·MTCNN讲解

背景介绍：人脸检测，解决两个问题：1)识别图片中有没有人脸？2)如果有，人脸在哪？因此，许多人脸应用(人脸识别、面向分析)的基础是人脸检测。大多数人脸检测采用的流程为两阶段： 1) 找出所有可能是人脸的候选区域 2) 从候选区域中选择出最可能是人脸的区域本文的主角MTCNN，大致是这种套路，也集成了其优缺点为：准和慢。 MTCNN人脸检测是2016年的论文提出来的，MTCNN的“MT”是指多任务学习(Multi-Task)，在同一个任务中同时学习”识别人脸“、”边框回归“、”人脸关键点识别“。相比2015年的CVPR(边框调整和识别人脸分开做)的结构，MTCNN是有创新的。从工程实践上，MTCNN是一种检测速度和准确率都还不错的算法，算法的推断流程有一定的启发性，在这里给大家分享。（以下用“MTCNN”代指这个算法）本文以Q&A的方式，与你分享一些经验和思考。先列出本文会回答的问题列表：

02

深度学习500问——Chapter08：目标检测（8）

在目标检测领域可以划分为了人脸检测与通用目标检测，往往人脸这方面会有专门的算法（包括人脸检测、人脸识别、人脸和其他属性的识别等等），并且可以和通用目标检测（识别）有一定的差别，这主要来源于人脸的特性（有时候目标比较小、人脸之间特征不明显、遮挡问题等），下面将从人脸检测和通用目标检测两个方面来讲解目标检测。

00

人脸检测中，如何构建输入图像金字塔

在文章《特征，特征不变性，尺度空间与图像金字塔》中我们初步谈到了图像金字塔，在这篇文章中将介绍如何在人脸检测任务中构建输入图像金子塔。

04

多目标模板匹配

一. 模板匹配模板匹配是数字图像处理的重要组成部分之一。把不同传感器或同一传感器在不同时间、不同成像条件下对同一景物获取的两幅或多幅图像在空间上对准,或根据已知模式到另一幅图中寻找相应模式的处理方法就叫做模板匹配。简单而言，模板就是一幅已知的小图像。模板匹配就是在一幅大图像中搜寻目标，已知该图中有要找的目标，且该目标同模板有相同的尺寸、方向和图像，通过一定的算法可以在图中找到目标，确定其坐标位置。二. 单目标模板匹配这里的模板匹配的方法其实并不复杂，利用目标的边缘信息用于搜索目标图像的模板所在位置。

05

【走进OpenCV】图片缩放和图像金字塔

要缩小图像，一般推荐使用CV_INETR_AREA来插值；若要放大图像，推荐使用CV_INTER_LINEAR。

01

快乐学AI系列——计算机视觉（3）目标检测

目标检测是计算机视觉领域中的一个重要问题，它旨在识别图像中的特定物体并确定其位置。目标检测在许多应用领域中都有广泛的应用，如智能交通、安全监控、医学影像分析等。

00

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。

01

检测器backbone和neck哪个更重要，达摩院新作有不一样的答案

【GaintPanda导语】这是关于GiraffeDet的论文详读，该论文提出以S2D Chain为组合模块，构建light backbone，再以Queen Fuse和Skip Connect构建GFPN作为颈部模块，与以往检测器的backbone>neck（FLOPS）的构建方式不同，GiraffeDet的neck在参数量和计算量上远超backbone。

02

【个人总结】一文看尽faster-RCNN的四大创新点

fast-RCNN是建立在前面的RCNN和SPPNet的基础之上的，虽然RCNN和SPPNet使得深度神经网络在目标检测领域有了一些新的技术突破，但是还远远没有达到真正的实时检测、端到端的出结果的程度，于是诞生了fast-RCNN，虽然在目前，已经明确有说明fast-RCNN是deprecate（贬低，贬损）的，但是从它里面所诞生的一些创新方法为后面的目标检测算法建立了一个很好的基础。小草收集了大量文献，整理了fast-RCNN的四大核心点。

02

ORB 特征

ORB 是 Oriented Fast and Rotated Brief 的简称，可以用来对图像中的关键点快速创建特征向量，这些特征向量可以用来识别图像中的对象。其中，Fast 和 Brief 分别是特征检测算法和向量创建算法。ORB 首先会从图像中查找特殊区域，称为关键点。关键点即图像中突出的小区域，比如角点，比如它们具有像素值急剧的从浅色变为深色的特征。然后 ORB 会为每个关键点计算相应的特征向量。ORB 算法创建的特征向量只包含 1 和 0，称为二元特征向量。1 和 0 的顺序会根据特定关键点和其周围的像素区域而变化。该向量表示关键点周围的强度模式，因此多个特征向量可以用来识别更大的区域，甚至图像中的特定对象。 ORB 的特点是速度超快，而且在一定程度上不受噪点和图像变换的影响，例如旋转和缩放变换等。

01

经典的图像匹配算法----SIFT

一. SIFT简介 1.1 算法提出的背景：成像匹配的核心问题是将同一目标在不同时间、不同分辨率、不同光照、不同位姿情况下所成的像相对应。传统的匹配算法往往是直接提取角点或边缘，对环境的适应能力较差，急需提出一种鲁棒性强、能够适应不同光照、不同位姿等情况下能够有效识别目标的方法。1999年British Columbia大学大卫.劳伊（ David G.Lowe）教授总结了现有的基于不变量技术的特征检测方法，并正式提出了一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子－SI

06

SPPNet总结

RCNN使用CNN作为特征提取器，首次使得目标检测跨入深度学习的阶段。但是在RCNN中，因为全连接层的神经元个数是固定的（权重矩阵的维数是固定的），所以采取对于每一个区域候选都需要首先将图片放缩到固定尺寸（227×227），然后为每个区域候选提取CNN特征的方案。这里存在两个瓶颈，第一重复为每个region proposal提取特征是及其费时的，Selective Search对于每幅图片产生2k左右个region proposal，也就是意味着一幅图片需要经过2k次完整的CNN计算得到最终的结果。第二对于所有的region proposal放缩到固定尺寸会导致我们不期望看到的几何形变，而且由于速度瓶颈的存在，不可能采用多尺度或者是大量的数据增强去训练模型，这就导致它的性能必然较差。

02

经典/深度SfM有关问题的整理[通俗易懂]

这篇博客主要是记录一些实践或看论文过程中遇到的一些不好理解的问题及解释。 Q1：SfM里的尺度不变性指的是什么？ A1：一般定义下，尺度不变性是指体系经过尺度变换后，其某一特性不变。比如，特征点检测算法SIFT，其检测到的特征点的尺度不变性是通过图像金字塔来实现的。这样，不管原图的尺度是多少，在包含了所有尺度的尺度空间下都能找到那些稳定的极值点，这样就做到了尺度不变。关于SIFT尺度不变性的更详细讲解，可以参考这篇博客。 Q2：单目相机SfM重建结果的尺度是怎么确定的？ A2：传统方法中，单目重建是无法获取重建场景的尺度信息的。因此，要确定重建的尺度，需要使用额外的手段。比如：

02

ICDAR 2019论文：自然场景文字定位技术详解

自然场景图像中的文字识别应用广泛，其中文字定位是最重要的一步，但技术上极具挑战。本文提出了一个高效的场景文本检测框架，取得了明显的效果提升。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭