前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >何恺明最新论文:VoteNet 3D目标检测,华为提出:基于NAS的人脸识别算法,程明明等开源:PoolNet实时显著性目标检测

何恺明最新论文:VoteNet 3D目标检测,华为提出:基于NAS的人脸识别算法,程明明等开源:PoolNet实时显著性目标检测

作者头像
Amusi
发布2019-05-10 16:57:46
2.2K0
发布2019-05-10 16:57:46
举报
文章被收录于专栏:CVer

前戏

最近论文真的很超级多,而且很多吸睛话题论文:CornerNet-LiteCenterNetNAS-FCN等。2019年4月23日,arXiv上放出了很多优质论文:各种顶会paper和顶会“种子”paper。这里为了节省篇幅,Amusi做了论文精选。本文要速递介绍的这三篇论文,Amusi 觉得都是相当具有影响力的paper,相信对你当前的研究会有很大帮助。

本文以论文速递为主,希望对你有点启发。三篇论文缩写如下:

  • VoteNet (3D目标检测)
  • NAS-A/B/C (人脸识别)
  • PoolNet (实时显著性目标检测)

VoteNet

《Deep Hough Voting for 3D Object Detection in Point Clouds》

arXiv: https://arxiv.org/abs/1904.09664

github: None

作者团队:FAIR & 斯坦福

PS:何恺明三作

注:2019年04月23日刚出炉的paper

Abstract:当前的3D目标检测方法受2D目标检测严重影响。为了利用2D检测器中的架构,它们经常将3D点云转换为常规网格,或者依赖于2D图像中的检测来提出3D框。很少有人尝试直接检测点云中的物体。在这项工作中,我们回到第一原则,为点云数据构建一个3D检测pipeline,并尽可能通用。然而,由于数据的稀疏性 - 来自3D空间中的2D流形的样本 - 当从场景点直接预测边界框参数时,我们面临一个主要挑战:3D目标质心可能远离任何表面点,因此很难一步准确回归。为了应对这一挑战,我们提出了VoteNet,一种基于 deep point set 网络和Hough投票协同作用的端到端3D物体检测网络。我们的模型在两个大型真实3D扫描数据集上实现了最先进的3D检测,ScanNet和SUN RGB-D具有简单的设计,紧凑的模型尺寸和高效率。值得注意的是,VoteNet通过使用纯粹的几何信息而不依赖于彩色图像,优于以前的方法。

本文算法(VoteNet)流程图

实验结果

NAS-A/B/C

《Neural Architecture Search for Deep Face Recognition》

arXiv: https://arxiv.org/abs/1904.09523

github: None

作者团队:华为(杭研所)

注:2019年04月23日刚出炉的paper

Abstract:随着电子设备的广泛普及,与传统的密码和模式解锁相比,生物识别技术的出现为用户认证带来了显著的便利。在众多生物特征中,面部是一种普遍且不可替代的特征。人脸识别是电子设备宣传的主要功能之一。该领域以前的工作主要集中在两个方向:转换损失函数以提高传统深度卷积神经网络(Resnet)中的识别精度;将最新的损失函数与轻量级系统(MobileNet)相结合,以最低的精度降低网络尺寸。但这些都没有改变网络结构。随着AutoML的发展,神经网络搜索(NAS)在图像分类基准中表现出了优异的性能。在本文中,我们将NAS技术集成到人脸识别中,以定制更合适的网络。我们引用了神经架构搜索的框架,它交替地训练 child and controller 网络。同时,我们通过将评估延迟纳入强化学习的奖励来改变NAS,并利用策略梯度算法以最经典的交叉熵损失自动搜索体系结构。我们搜索到的网络架构在大规模人脸数据集中具有最先进的精度,在MS-Celeb-1M中达到98.77%准确率,目前第 1,在网络规模相对较小的LFW中达到99.89%。据我们所知,本方法是首次尝试使用NAS解决深度识别问题并在此领域取得最佳效果。

NAS流程图

本文算法(NAS-A/B/C)流程图

实验结果

NAS C 在MS-Celeb-1M数据集上可达98.77%准确率!

NAS C 在LFW数据集上可达99.89%准确率!

PoolNet

《A Simple Pooling-Based Design for Real-Time Salient Object Detection》

arXiv: https://arxiv.org/abs/1904.09569

github: http://mmcheng.net/poolnet/

作者团队:南开大学&新加坡国立大学&深圳大学

PS:程明明三作

注:2019年04月23日刚出炉的paper

Abstract:我们通过研究如何扩展卷积神经网络中池化(pooling)的作用来解决显著目标检测问题。基于U形结构,我们首先在自下而上的路径上构建全局引导模块(GGM),旨在为不同特征层提供潜在显著目标的位置信息。我们进一步设计了一个特征聚合模块(FAM),使粗级语义信息与自上而下的路径中的精细级别特征完美融合。通过在自上而下路径中的融合操作之后添加FAM,来自GGM的粗略特征可以与各种尺度的特征无缝地合并。这两个基于池化的模块允许逐步细化高级语义特征,从而产生细节丰富的显著性映射。实验结果表明,我们提出的方法可以更精确地定位具有锐化细节的显著对象,因此与先前的现有技术相比显著改善了性能。我们的方法也很快,并且在处理300×400图像时可以以超过30 FPS的速度运行。

本文算法(VoteNet)流程图

特征聚合模块(FAM)

实验结果

400x300,32 FPS 舒服!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前戏
  • VoteNet
  • NAS-A/B/C
  • PoolNet
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档