首页
学习
活动
专区
工具
TVP
发布

计算机视觉理论及其实现

专栏作者
1713
文章
3749304
阅读量
71
订阅数
matlab图像的放缩
我在做图像有关的神经网络实验时,为了满足神经网络对图像尺寸的要求,经常需要将现有的图像进行放缩,即放大和缩小,于是查阅了一下,发现matlab有个专门的图像放缩函数:imresize(),很方便。
狼啸风云
2022-11-21
5790
CVPR2019目标检测方法进展
目标检测是很多计算机视觉应用的基础,比如实例分割、人体关键点提取、人脸识别等,它结合了目标分类和定位两个任务。现代大多数目标检测器的框架是 two-stage,其中目标检测被定义为一个多任务学习问题:1)区分前景物体框与背景并为它们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其它指标。最后,通过一个 NMS 过程移除冗余的边界框(对同一目标的重复检测)。本文首先综述近年来二维目标检测的优化方向,之后介绍CVPR2019目标检测最新进展,包括优化IoU的GIoU,优化anchor设计的GA-RPN,以及single-stage detection的FSAF。
狼啸风云
2022-11-21
3340
CVPR2019 | 29篇目标检测相关论文汇总(含2D/3D/显著性目标检测等)
1、Stereo R-CNN based 3D Object Detection for Autonomous Driving 作者:Peiliang Li, Xiaozhi Chen, Shaojie Shen 论文链接:https://arxiv.org/abs/1902.09738
狼啸风云
2022-11-18
3750
支持向量机
,分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面可能有很多。直观上看,应该去找位于两类训练样本“正中间”的划分超平面,因为该划分超平面对训练样本局部扰动的“容忍性”最好。例如由于训练集的局限性或噪声的因素,训练集外的样本可能比训练样本更接近两个类的分隔界,这将使许多划分朝平面出现错误,而红色的超平面受影响最小。换言之,这个划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。
狼啸风云
2022-09-28
5850
Tensorflow中的placeholder和feed_dict的使用
TensorFlow 支持占位符placeholder。占位符并没有初始值,它只会分配必要的内存。在会话中,占位符可以使用 feed_dict 馈送数据。feed_dict是一个字典,在字典中需要给出每一个用到的占位符的取值。在训练神经网络时需要每次提供一个批量的训练样本,如果每次迭代选取的数据要通过常量表示,那么TensorFlow 的计算图会非常大。因为每增加一个常量,TensorFlow 都会在计算图中增加一个结点。所以说拥有几百万次迭代的神经网络会拥有极其庞大的计算图,而占位符却可以解决这一点,它只会拥有占位符这一个结点。
狼啸风云
2022-09-28
4460
ORSIm:A Novel Object Detection Framework in Optical Remote Sensing Imagery Using Spatial-Feature
近年来,随着星载成像技术的飞速发展,光学遥感图像中的目标检测受到了广泛的关注。虽然许多先进的研究工作都使用了强大的学习算法,但不完全特征表示仍然不能有效地、高效地处理图像变形,尤其是目标缩放和旋转。为此,我们提出了一种新的目标检测框架,称为光学遥感图像检测器(ORSIm检测器),它集成了多种通道特征提取、特征学习、快速图像金字塔匹配和增强策略。ORSIm检测器采用了一种新颖的空频信道特征(SFCF),它综合考虑了频域内构造的旋转不变信道特征和原始的空间信道特征(如颜色信道和梯度幅度)。随后,我们使用基于学习的策略对SFCF进行了改进,以获得高级或语义上有意义的特性。在测试阶段,通过对图像域中尺度因子的数学估计,实现了快速粗略的通道计算。对两种不同的机载数据集进行了大量的实验结果表明,与以往的先进方法相比,该方法具有优越性和有效性。
狼啸风云
2022-09-23
3080
torch.nn.init.kaiming_normal_
Fills the input Tensor with values according to the method described in Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification - He, K. et al. (2015), using a normal distribution. The resulting tensor will have values sampled from
狼啸风云
2022-08-18
3190
计算机视觉中的细节问题(六)
batch字面上是批量的意思,在深度学习中指的是计算一次cost需要的输入数据个数。
狼啸风云
2022-06-08
6960
keras.layers
Keras layers API. Aliases: Module tf.compat.v1.keras.layers Classes class AbstractRNNCell: Abstract object representing an RNN cell. class Activation: Applies an activation function to an output. class ActivityRegularization: Layer that applies an update t
狼啸风云
2022-06-05
1810
基于卷积神经网络的图像分类
目前主要的网络先是AlexNet,然后到VGG,到GoogleNet再到ResNet,深度是逐渐加深的分别是8层、19层、GoogleNet V1是22层和ResNet第一篇文章是152层,其中VGG和ResNet结构简洁而且性能比较好,因此使用比较广泛。GoogleNet的性能最好,但是网络很复杂,思想是先分级再分支然后再各自做变换然后再合并,就是增加了网络的宽度,先分支各个网路做各自的卷积或池化,最终把结果串接起来形成更多的特征通道。残差网络主要是对通达上的操作,通道拆解。目前网络有三大维度,深度、宽度(GoogleNet主做的维度)、残差网络的升级版ResNeXt增加了维度基数,因此有三个参数来表征网络的复杂度,换句话说就是模型的表达力,网络越复杂模型表达力越强。
狼啸风云
2022-06-05
6150
AutoFormer: Searching Transformers for Visual Recognition
最近,基于Transformers的模型在图像分类和检测等视觉任务中显示出了巨大的潜力。 然而,变压器网络的设计是具有挑战性的。 已经观察到,深度、嵌入尺寸和头部的数量在很大程度上影响视觉变形器的性能。 以前的模型基于手工手工配置这些维度。 在这项工作中,我们提出了一个新的一次性架构搜索框架,即AutoFormer,专门用于视觉Transformers搜索。 在超网训练期间,自动前缠绕不同块的重量在同一层。 受益于该战略,训练有素的超级网络允许数千个子网得到非常好的训练。 具体来说,这些继承自超级网络权重的子网的性能与那些从头开始重新训练的子网相当。 此外,搜索模型,我们参考的AutoFormers,超过了最近的先进水平,如ViT和DeiT。 特别是AutoFormer-tiny/small/base在ImageNet上实现了74.7%/81.7%/82.4%的top-1精度,分别为5.7M/22.9M/53.7M参数。 最后,我们通过提供下游基准和蒸馏实验的性能来验证自动成形机的可移植性。
狼啸风云
2022-04-02
8380
计算机视觉最新进展概览(2021年7月18日到2021年7月24日)
在这份报告中,我们介绍了YOLO系列的一些经验改进,形成了一种新的高性能检测器——YOLOX。我们将YOLO检测器转换为无锚方式,并采用其他先进的检测技术,例如解耦头部和领先的标签分配策略SimOTA,以在大范围模型中实现最先进的结果:对于只有0.91M参数和1.08G FLOPs的YOLO-Nano,我们在COCO上得到25.3%的AP,超过了NanoDet 1.8%的AP;对于YOLOv3,工业上使用最广泛的检测器之一,我们在COCO上将其提高到47.3% AP,比目前的最佳做法高出3.0% AP;为YOLOX-L大致相同数量的参数作为YOLOv4-CSP, YOLOv5-L,我们在COCO上达到50.0% AP,在特斯拉V100达到了68.9帧/秒的速度,超过YOLOv5-L 1.8%的mAP。进一步,我们使用单一YOLOX-L模型赢得了Place on Streaming Perception Challenge的第一名(CVPR 2021自动驾驶workshop)。我们希望这份报告可以为开发人员和研究人员在实际场景中提供有用的经验,我们也提供了支持ONNX、TensorRT、NCNN和Openvino的部署版本。代码已经开源。
狼啸风云
2022-04-02
3240
PupilNet: Convolutional Neural Networks for Robust Pupil Detection
实时、准确和健壮的瞳孔检测是普及的基于视频的眼球跟踪的必要前提。 然而,由于快速的光照变化、瞳孔遮挡、非中心和离轴眼记录以及眼的生理特征,在真实场景中自动检测瞳孔是一个复杂的挑战。 在本文中,我们提出并评价了一种新的基于双卷积神经网络流程的方法。 在它的第一阶段,流程使用卷积神经网络和从缩小的输入图像的子区域进行粗瞳孔位置识别,以减少计算成本。 第二阶段使用从初始瞳孔位置估计周围的小窗口衍生出的子区域,使用另一种卷积神经网络来优化这个位置,与目前性能最好的算法相比,瞳孔检测率提高了25%。 可根据要求提供注释数据集。
狼啸风云
2021-10-12
1.5K0
Adversarial Reinforcement Learning for Unsupervised Domain Adaptation
将知识从已有的标记域转移到新的域时,往往会发生域转移,由于域之间的差异导致性能下降。 领域适应是缓解这一问题的一个突出方法。 目前已有许多预先训练好的神经网络用于特征提取。 然而,很少有工作讨论如何在源域和目标域的不同预训练模型中选择最佳特性实例。通过采用强化学习我们提出了一种新的方法来选择特征,再两个域上学习选择最相关的特征。具体地说,在这个框架中,我们使用Q-learning来学习agent的策略来进行特征选择, 通过逼近action-value来进行决策。 在选择最优特征后,我们提出一种对抗分布对齐学习来改进预测结果。 大量的实验证明,该方法优于目前最先进的方法。
狼啸风云
2021-09-26
1.1K0
Improving 3D Object Detection with Channel-wise Transformer
尽管近年来点云三维物体检测取得了快速进展,但缺乏灵活和高性能的建议细化仍然是现有最先进的两级检测器的一大障碍。 之前的3D建议精炼工作依赖于人为设计的组件,如关键点采样、集合抽象和多尺度特征融合,以产生强大的3D目标表示。 然而,这些方法捕获点之间丰富的上下文依赖关系的能力有限。 在本文中,我们利用高质量的区域提议网络和一个Channel-wise Transformer架构,以最少的手工设计构成了我们的两阶段3D目标检测框架(CT3D)。 建议的CT3D同时对每个建议中的点特征执行提议感知的嵌入和信道上下文聚合。 具体来说,CT3D利用建议的关键点进行空间情境建模,并在编码模块中学习注意力传播,将建议映射到点嵌入。 接下来,一个新的信通道译码模块通过通道重加权有效地合并多级上下文来丰富查询键交互,这有助于实现更准确的目标预测。 大量实验表明,我们的CT3D方法具有良好的性能和可扩展性。 值得一提的是,在KITTI测试3D检测基准上,CT3D在中型车类别中实现了81.77%的AP,优于最先进的3D检测器。
狼啸风云
2021-09-26
1.1K1
tensorflow出现LossTensor is inf or nan : Tensor had Inf values
之前在TensorFlow中实现不同的神经网络,作为新手,发现经常会出现计算的loss中,出现Nan值的情况,总的来说,TensorFlow中出现Nan值的情况有两种,一种是在loss中计算后得到了Nan值,另一种是在更新网络权重等等数据的时候出现了Nan值,本文接下来,首先解决计算loss中得到Nan值的问题,随后介绍更新网络时,出现Nan值的情况。
狼啸风云
2021-09-07
1.5K0
Siamese network
Siamese和Chinese有点像。Siam是古时候泰国的称呼,中文译作暹罗。Siamese也就是“暹罗”人或“泰国”人。Siamese在英语中是“孪生”、“连体”的意思,这是为什么呢?
狼啸风云
2021-09-07
7080
计算机视觉最前沿进展2021年8月15日到2021年8月21日
最近,跨域目标检测和语义分割取得了令人印象深刻的进展。现有方法主要考虑由外部环境(包括背景、光照或天气的变化)引起的域偏移,而不同的摄像机固有参数通常出现在不同的域中,并且它们对域自适应的影响很少被探索。在本文中,我们观察到视场(FoV)间隙导致源域和目标域之间明显的实例外观差异。我们进一步发现,在FoV增加(源FoV <目标FoV)和FoV减少的情况下,两个域之间的FoV差距都会损害域适应性能。受这些观察的启发,我们提出了位置不变变换来更好地对齐不同领域的图像。我们还引入了一个反向PIT,用于将变换/对齐的图像映射回原始图像空间,并设计了一个损失重新加权策略来加速训练过程。我们的方法可以很容易地插入到现有的跨域检测/分割框架中,同时带来可忽略的计算开销。大量的实验表明,我们的方法可以有效地提高跨域目标检测和分割的性能。
狼啸风云
2021-08-24
1.7K0
Rank & Sort Loss for Object Detection and Instance Segmentation
我们提出了秩和排序损失,作为一个基于秩的损失函数来训练深度目标检测和实例分割方法(即视觉检测器)。RS损失监督分类器,一个子网络的这些方法,以排名每一个积极高于所有的消极,以及排序积极之间关于。它们的连续本地化质量。为了解决排序和排序的不可微性,我们将错误驱动的更新和反向传播的结合重新表述为身份更新,这使我们能够在肯定的排序错误中建模。有了RS Loss,我们大大简化了训练:(I)由于我们的分类目标,在没有额外辅助头的情况下,由分类器对阳性进行优先排序(例如,对于中心度、IoU、掩码-IoU),(ii)由于其基于排序的特性,RS Loss对类不平衡是鲁棒的,因此,不需要采样启发式,以及(iii)我们使用无调整任务平衡系数来解决视觉检测器的多任务特性。使用RS Loss,我们仅通过调整学习速率来训练七种不同的视觉检测器,并表明它始终优于基线:例如,我们的RS Loss在COCO数据集上提高了(I)Faster R-CNN约3框AP,在COCO数据集上提高了约2框AP的aLRP Loss(基于排名的基线),(ii)在LVIS数据集上用重复因子采样(RFS)Mask R-CNN约3.5个屏蔽AP(稀有类约7个AP);
狼啸风云
2021-08-18
1.5K0
计算机视觉最新进展概览(2021年8月8日到2021年8月14日)
这项工作解决了雾天基于激光雷达的三维目标检测的挑战性任务。在这种情况下收集和注释数据是非常费时费力的。在本文中,我们通过将物理上精确的雾模拟到晴好天气场景中来解决这个问题,从而可以将晴好天气中捕获的大量现有真实数据集重新用于我们的任务。我们的贡献有两个方面:1)我们开发了一种适用于任何激光雷达数据集的物理上有效的雾模拟方法。这释放了大规模雾天训练数据的获取,无需额外成本。这些部分合成的数据可用于提高几种感知方法的鲁棒性,例如对真实雾天数据的3D目标检测和跟踪或同时定位和映射。2)通过使用几种最先进的检测方法的大量实验,我们表明,我们的雾模拟可以显著提高雾存在时的3D目标检测性能。因此,我们第一个在透视雾数据集上提供强有力的3D目标检测基线。
狼啸风云
2021-08-18
7780
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档