卷积网络的平移不变性可能会经常在论文中看到,那这个到底是什么呢?看了一些论文的原文和网络上十几篇讲这个的博文,大概捋清了思路然后写下这个。不得不说,有的博文讲的有那么点问题。
前段时间看到了几篇有意思的文章,也参考了一些相关的讨论,这里想对CNN中的平移和尺度的不变性和相等性,以及CNN对于目标相对和绝对位置、深度的预测原理进行探讨。这些内容对于一些特定任务很重要,比如目标检测、目标分割、深度估计、分类/识别以及单目标跟踪中的置信图预测等。
一般来说,图像经过小小的平移和变形之后,人类还是信任CNN能够把它们泛化,识别出里面的物体。
前几天看到一篇来自Adobe研究院的论文《Making Convolutional Networks Shift-Invariant Again》,感觉很有启发性。
摘要总结:本文介绍了图像不变性特征中的hu矩,包括其计算方法和物理意义。hu矩是一种具有平移、旋转和尺度不变性的图像特征,包括中心矩和归一化中心矩。通过这些矩,可以构造出具备不变性的特征,从而在图像识别和目标跟踪等任务中起到重要作用。
方法:结合DCNNs和概率图模型,即DCNNs最后一层响应和条件随机场解决分割问题。
所以这两种操作共同提供了一些平移不变性,即使图像被平移,卷积保证仍然能检测到它的特征,池化则尽可能地保持一致的表达。
论文: Conditional Positional Encodings for Vision Transformers
1、pooling是在卷积网络(CNN)中一般在卷积层(conv)之后使用的特征提取层,使用pooling技术将卷积层后得到的小邻域内的特征点整合得到新的特征。一方面防止无用参数增加时间复杂度,一方面增加了特征的整合度。
胶囊网络是 Geoffrey Hinton 提出的一种新型神经网络结构,为了解决卷积神经网络(ConvNets)的一些缺点,提出了胶囊网络。
本文介绍一篇ICLR 2022在审论文《GEODIFF:A GEOMETRIC DIFFUSION MODEL FOR MOLECULAR CONFORMATION GENERATION》。根据分子图来预测分子构象是化学信息学和药物发现中的一项基础工作。随着深度生成模型的兴起,这一工作取得重大进展。在这篇论文中,作者提出了新的生成模型GEODIFF。受热力学粒子扩散模型的启发,GEODIFF将每个原子当作一个粒子,GEODIFF所需要学习的部分——分子构象生成即扩散模型的逆过程。对比最先进的一些生成模型,GEODIFF在多个基准上展示出其竞争力,对于大分子尤其明显。
各位看官老爷们 好久不见 这里是波波给大家带来的CNN卷积神经网络入门讲解 每周我将给大家带来绝对原创,脑洞大开,幽默风趣的深度学习知识点入门讲解 希望大家多多支持,多多关注 知乎:蒋竺波 📷 今年第一次圣诞节在新加坡过 先让我们来看看新加坡的圣诞 📷 📷 📷 📷 📷 📷 📷 📷 📷 看看就好了 上一次我们讲到哪了 嗯,对了,讲到卷积输出了,输出的特征图(feature map)到了采样(pooling,有些也叫subsample)层手上, 采样层实际上就是一个特征选择的过程 假设我们用边缘滤波器去卷积输入
答:\(Shift _{\Delta h, \Delta w}(\widetilde{\mathcal{F}}(X))=\widetilde{\mathcal{F}}\left(\text { Shift }_{\Delta h, \Delta w}(X)\right) \quad \forall(\Delta h, \Delta w)\),可以看到输入在\((\Delta h, \Delta w)\)变化,输出对应的输出在\((\Delta h, \Delta w)\)变化。
这一次咱们反着来,说说学术界对池化的最新观点。通常我们认为,池化可以增加网络对于平移的不变性,对于网络的泛化能力的提升是非常关键的。不过,到底能起到多大的正向作用,却是被很多人怀疑的。
虽然,有著名的抗锯齿 (Anti-Aliasing,AA) 方法,致力解决这个问题。但把这种模块直接插进网络,会严重影响模型的表现。
卷积的概念无处不在。它究竟有什么特别之处呢?在本文中,作者从第一性原理中推导出卷积,并表明它自然地来自平移对称性。
以下摘自池化-ufldl: 如果人们选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征,那么,这些池化单元就具有平移不变性 (translation invariant)。 这就意味着即使图像经历了一个小的平移之后,依然会产生相同的 (池化的) 特征。 在很多任务中 (例如物体检测、声音识别),我们都更希望得到具有平移不变性的特征,因为即使图像经过了平移,样例(图像)的标记仍然保持不变。 例如,如果你处理一个MNIST数据集的数字,把它向左侧或右侧平移,那么不论最终的
代码已开源: https://github.com/JoestarK/LiDAR-Iris
数学方程不仅实用,很多还非常优美。许多科学家承认,他们经常喜欢特定的公式,不仅仅是因为它们功能强大,还因为它们形式优雅、简洁及其中所蕴涵着诗一般的真理。
导语:近日,帝国理工学院教授、Twitter 首席科学家 Michael Bronstein 发表了一篇长达160页的论文(或者说书籍),试图从对称性和不变性的视角从几何上统一CNNs、GNNs、LSTMs、Transformers等典型架构,构建深度学习的“爱尔兰根纲领”!本文是Michael Bronstein对论文的精华介绍。
在数学和统计学中,矩(moment)是对变量分布和形态特点的一组度量。n阶矩被定义为一变量的n次方与其概率密度函数(Probability Density Function, PDF)之积的积分。在文献中n阶矩通常用符号μn表示,直接使用变量计算的矩被称为原始矩(raw moment),移除均值后计算的矩被称为中心矩(central moment)。变量的一阶原始矩等价于数学期望(expectation)、二至四阶中心矩被定义为方差(variance)、偏度(skewness)和峰度(kurtosis)。
选自arXiv 作者:Ekin D. Cubuk 等 机器之心编译 参与:Geek AI、路 近日,来自谷歌大脑的研究者在 arXiv 上发表论文,提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建一个数据增强策略的搜索空间,利用搜索算法选取适合特定数据集的数据增强策略。此外,从一个数据集中学到的策略能够很好地迁移到其它相似的数据集上。 引言 深度神经网络是强大的机器学习系统,当使用海量数据训练时,深度神经网络往往能很好地工作。数据增强是一种通过随机「增广」来提高数据量和数据多样性的
maxpooling主要有两大作用 1. invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度) 2. 保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力 (1) translation invariance: 这里举一个直观的例子(数字识别),假设有一个16x16的图片,里面有个数字1,我们需要识别出来,这个数字1可能写的偏左一点(图1),这个数字1可能偏右一点(图2),图1到图2相当于
在视觉信息(图像信息) 处理模型中引入一个被视为尺度的参数,通过连续变化尺度参数获得不同尺度下视觉处理信息,然后综合这些信息以深入地挖掘图像的本质特征。尺度空间方法将传统的单尺度视觉信息处理技术纳入尺度不断变化的动态构架中,因此更容易获得图像的本质特征。尺度空间生成的目的是模拟图像数据的多尺度特征。
图片来源:Mathworks 翻译 | 王赫 编辑 | Donna 2012年,三位深度学习的“巨人”Alex Krizhevsky, Ilya Sutskever 和 Geoffrey Hinton,联合发表了题为 “ImageNet Classification with Deep Convolutional Networks” 的论文。自此,卷积神经网络( CNNs )就成了一个万人追捧的工具,并使深度学习成为人工智能领域的一大热门。 不可否认,CNNs 在计算机视觉领域无疑是一手实力制胜牌,在许
本期介绍德州农工大学CSE系Shuiwang Ji 教授(http://people.tamu.edu/~sji/)团队被ICLR2022接收的两个工作:SphereNet与G-SphereNet。
但是同样的目标,在不同的图片中,会存在位置的偏移,角度的旋转,尺度的大小。卷积神经网络要能够应对这些情况,比如分类任务,对于同样的目标在不同图像中的偏移,旋转,尺度,要输出同样的结果。
本文分享 NeurIPS 2021 论文『Aligning Pretraining for Detection via Object-Level Contrastive Learning』MSRA提出对象级对比学习的目标检测预训练方法!性能SOTA!
原文链接: 最新开源!基于LiDAR的位置识别网络OverlapTransformer,RAL/IROS 2022
激活函数作用:如果不用激励函数(其实相当于激励函数是 f(x) = x),在这种情况下你每一层 节点的输入都是上层输出的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了,那么网络的逼近能力就相当有限。正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络表达能力就更加强大(不再是输入的线性组合,而是几乎可以逼近任意函数)。
论文地址: http://arxiv.org/pdf/2010.11882v1.pdf
卷积网络convolutional network,也叫做卷积神经网络convolutional neural network CNN 专门用来处理类似网格结构数据的神经网络. 比如
深度学习很难。 虽然通用逼近定理表明足够复杂的神经网络原则上可以逼近“任何东西”,但不能保证我们可以找到好的模型。
2015 NIPS(NeurIPS,神经信息处理系统大会,人工智能领域的 A 类会议)论文
在现有的网络结构设计指导下,似乎卷积层后跟一个池化层下采样,已经是一个准则。我们重新思考了现有SOTA网络,并得出结论最大池化层是能被卷积层给替代。我们设计了一系列小网络,并提出了一种新的「反卷积方法」来去可视化CNN学习到的特征
目标检测的框架根据ROI pooling 层可以分为两个子网络: - 共享的,全卷积子网络,独立于ROI; - 各个ROI子网络,不共享计算
目前主流的卷积操作都在空间域进行权值共享,而如果想得到更丰富的信息,只能通过增加卷积的数量来实现,这样不仅计算低效,也会带来网络优化困难。与主流卷积不同,local conv在不同的像素位置使用不同的权值,这样能够高效地提取丰富的信息,主要应用在人脸识别领域,但local conv不仅会带来与特征图大小相关的参数量,还会破坏平移不变性。
这是Google旗下 DeepMind 大作,最近学习人脸识别,这篇paper提出的STN网络可以代替align的操作,端到端的训练实现图片的align。
随着深度学习的不断发展,卷积神经网络(CNN)作为计算机视觉领域的杀手锏,在几乎所有视觉相关任务中都展现出了超越传统机器学习算法甚至超越人类的能力。一系列CNN-based网络在classification、localization、semantic segmentation、action recognization等任务中都实现了state-of-art的结果。
说起CNN,最初人们想到的都是某电视台,但等过几年,人们想起的多半是深度学习了。 应该说, CNN是这两年深度学习风暴的罪魁祸首, 自2012年, 正是它让打入冷宫的神经网络重见天日并且建立起自己在人工智能王国的霸主地位。 如过你认为深度学习是只能用来理解图像的,你就大错特错了, 因为它的用途太广了,上至文字,中有图像, 下至音频, 从手写数字识别到大名鼎鼎的GAN对抗学习, 都离不开它。 不过要了解CNN,还是拿图像做例子比较恰当。一句话来说CNN图像处理的本质,就是信息抽取, 巨大的网络可以抽取一步步得
Sift是David Lowe于1999年提出的局部特征描述子,并于2004年进行了更深入的发展和完善。Sift特征匹配算法可以处理两幅图像之间发生平移、旋转、仿射变换情况下的匹配问题,具有很强的匹配能力。在Mikolajczyk对包括Sift算子在内的十种局部描述子所做的不变性对比实验中,Sift及其扩展算法已被证实在同类描述子中具有最强的健壮性。
论文地址:https://arxiv.org/pdf/1812.11703.pdf
程序:https://github.com/PengBoXiangShang/SiamRPN_plus_plus_PyTorch
江山代有才人出,各领风骚数百年。但在计算机科学领域,风骚数十年都非常难。卷积神经网络在短短三十多年里,几起几落。别看它现在依然如日冲天,要知道,浪潮之巅的下一步,就是衰落。而加快推动这一趋势的,正是卷积神经网络得以雄起的大功臣——Geoffrey Hinton。他提出了全新的“神经胶囊”理论,这“胶囊”里到底装的是什么“药”呢?
TLDR:你有没有想过卷积有什么特别之处?在这篇文章中,我从第一原理中推导出卷积,并展示它的平移对称性。
在上一篇文章中,我们着重讲到对于复杂的对称性,我们依据几何变换操作的特点,引入群的数学工具来描述。并且,群也不仅仅能描述对称性,而是可以描述一整个操作集合的结构。相关内容请戳:
文章“Objectrecognition in 3D scenes with occlusions and clutter by Hough voting”发表在2010年,提出了一个经典的将霍夫投票思想用于三维场景目标识别的方法,在杂乱场景和有遮挡情况下取得了不错的效果。这一思想在近年的文章中被多次引用,一些深度学习的方法也有该投票思想的影子。该方法已在PCL库中有简易实现。
卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时,会存在以下两个问题:
领取专属 10元无门槛券
手把手带您无忧上云