前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【论文学习】STN —— Spatial Transformer Networks

【论文学习】STN —— Spatial Transformer Networks

作者头像
全栈程序员站长
发布2022-09-27 10:51:54
9060
发布2022-09-27 10:51:54
举报
文章被收录于专栏:全栈程序员必看

Paper:Spatial Transformer Networks

这是Google旗下 DeepMind 大作,最近学习人脸识别,这篇paper提出的STN网络可以代替align的操作,端到端的训练实现图片的align。

实际使用的过程中不需要landmarks也可以做align了,而且还可以并联多个,这对于多个物体非常适用,而且,输出的feature大小可以变换,这一点也很灵活。

提出背景

CNN可以显示的学习平移不变性,隐式的学习到对旋转,伸缩、尺度等变换的不变性,Google DeepMind 2016年提出的STN网络,可以显式地赋予网络对上述变换的不变性。不依赖于关键点进行矫正和对齐,而且网络可以作为模块加入神经网络的各个层中。

先来看STN效果

【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks

如图,是手写数字识别,图中只有一小块是数字,其他大部分地区都是黑色的,或者是小噪音。假如要识别,用STN层来对图片数据进行旋转缩放,只取其中的一部分,放到之后然后经过CNN就能识别了。说白了就是把图片中物体所在区域送到网络后面的层中,使得后面的分类任务更简单。

本质上来说,CNN是尽力让网络适应物体的形变,而STN是直接通过 Spatial Transformer 将形变的物体给变回到正常的姿态,然后再给网络识别。

STN整体结构

【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks

STN的结构如上图所示,由三个模块组成:

(1)Localisation net Localisation Network的输入是特征图U,输出是变换参数θ,该网络通过回归来学习变换变换参数θ。 θ参数的规模取决于将图像的空间变换视为何种变换,当把图像的空间变换视为纺射变换,θ由6个参数决 定。

(2)Grid generator

Grid generator用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置。

【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks

上图中,(a)恒等变换与采样; (b)仿射变换与采样。仿射变换如下所示

【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks

(3)Sampler

通过仿射变换等变化的坐标有可能是浮点数,如果直接取整,则导致无法进行反向传播。因此作者使用 如下公式建立变换前后的坐标映射关系:

【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks

具体实现方式有多种,比如最近邻取整,双线性插值等等。

实验结果

【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks

数据集:对mnist图片上的数字做了各种形变操作,比如平移,扭曲,放缩,旋转等。其中,R: rotated, RTS: rotated, translated, and scaled, P: projective distortion, E: elastic distortion。

Spatial Transformer 模块嵌入到 两种主流的分类网络,FCN和CNN中图片输入层与后续分类层之间。

【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks
【论文学习】STN —— Spatial Transformer Networks

总结思考

Spatial Transformer Networks的出发点是传统CNN中的空间不变性是通过pooling实现的,然而pooling的小尺寸导致不变性只能在网络的深层达到,而且并不能真正处理输入数据的大变换。于是作者提出,对图像或者中间层的feature map作变换。

一个非常大的好处是,STN中三个模块全部可微,因此可以实现端到端的训练。

而且可以处理image,也可以处理feature,应用的位置也非常多,所以说设计的非常灵活了!

STN正常而言是不需要先验的,那么如果有先验的landmarks会不会效果更好呢?

参考文献

[1] https://arxiv.org/abs/1506.02025

[2] https://zhuanlan.zhihu.com/p/37110107

[3] https://arleyzhang.github.io/articles/7c7952f0/

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/183894.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 提出背景
  • STN整体结构
  • 实验结果
  • 总结思考
  • 参考文献
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档