前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CV Code|计算机视觉开源周报20200602期~文末送书

CV Code|计算机视觉开源周报20200602期~文末送书

作者头像
CV君
发布2020-06-19 14:40:58
7040
发布2020-06-19 14:40:58
举报
六月的第二周马上就要过去了,又到了我们盘点开源代码的时候。本周出了多份CVPR 2020的论文代码,涵盖目标视点估计、目标检测、ReID、图像增强与质量评价、超分辨率、光流算法、目标跟踪、无监督学习、自监督学习、迁移学习、鲁棒学习等。

其中CV君以为最为值得关注的是密歇根大学发布的VirTex算法,从文字描述中训练视觉模型,得到更具表示能力的主干网络,在多个视觉任务中表现优异。这种结合CV 与NLP的工作,也许是未来CV能走的更远的重要方向。

目标视点估计

#CVPR 2020#

Novel Object Viewpoint Estimation through Reconstruction Alignment

一种新的基于重建对齐的目标视点估计方法

作者 | Mohamed El Banani, Jason J. Corso, David F. Fouhey

单位 | 密歇根大学

论文 | https://arxiv.org/abs/2006.03586

代码 | https://github.com/mbanani/novelviewpoints

网站 | https://mbanani.github.io/novelviewpoints/

视频 | https://mbanani.github.io/novelviewpoints/

novelview_spotlight.mp4

目标检测

#CVPR 2020##多模态预测#

Multimodal Future Localization and Emergence Prediction for Objects in Egocentric View with a Reachability Prior

作者 | Osama Makansi, Özgün Cicek, Kevin Buchicchio, Thomas Brox

单位 | 弗莱堡大学;IMRA-EUROPE

论文 | https://arxiv.org/abs/2006.04700

代码 | https://github.com/lmb-freiburg/FLN-EPN-RPN(即将)

#CVPR 2020##目标检测#

Learning a Unified Sample Weighting Network for Object Detection∗

学习一个统一的样本权重网络用于目标检测

设计了一个通用的损失函数,以覆盖大多数基于区域的目标检测器,并采用不同的采样策略,基于它提出了一个统一的样本权重网络来预测样本的任务权重。

此框架简单而有效。它利用样本在分类损失、回归损失、IoU和概率得分上的不确定性分布,来预测样本权重。

所提方法的优点:

1)它联合学习分类和回归任务的样本权重,这与之前的大多数工作不同。

2)它是一个数据驱动的过程,避免了一些人工参数调整。

3)它可以毫不费力地插入到大多数目标检测器中,并在不影响其推理时间的情况下实现明显的性能改进。

结果:与最新的目标检测框架进行全面评估,它可以持续提高精度。

作者 | Qi Cai, Yingwei Pan, Yu Wang, Jingen Liu, Ting Yao, Tao Mei

单位 | 中国科学技术大学;京东,中国;京东,美国

论文 | https://arxiv.org/abs/2006.06568

代码 | https://github.com/caiqi/sample-weighting-network

人员重识别

Person Re-identification in the 3D Space

三维空间中的人员重识别

现有的人员重识别方法都是在二维空间中,本次工作是通过探索3D人体结构的先验知识解决这一局限,即将二维图像投射到三维空间,引入一种新型的全尺度图形网络从稀疏的三维点学习表征。

根据3D几何信息,学习一种新型深度重识别特征,不受视点等影响。

大量的实验表明,所提出的方法在三个常用的大规模人员重识别数据集上取得了具有竞争力的结果,并且对未见数据集也具有良好的可扩展性。

作者 | Zhedong Zheng, Yi Yang

单位 | 悉尼科技大学

论文 | https://arxiv.org/abs/2006.04569

代码 | https://github.com/layumi/person-reid-3d

图像增强与质量评价

#图像恢复#

Neural Sparse Representation for Image Restoration

图像恢复中的神经稀疏表示

作者 | Yuchen Fan, Jiahui Yu, Yiqun Mei, Yulun Zhang, Yun Fu, Ding Liu, Thomas S. Huang

单位 | 字节跳动;东北大学;伊利诺伊大学厄巴纳-香槟分校

论文 | https://arxiv.org/abs/2006.04357

代码 | https://github.com/ychfan/nsr

#CVPR 2020# #图像去雨# #迁移学习#

Syn2Real Transfer Learning for Image Deraining using Gaussian Processes

利用高斯过程进行图像去雨的Syn2Real迁移学习

基于CNN的图像去雨方法在重建误差以及视觉质量方面都取得了优异的性能。

现有方案缺点:只能在有标注的数据上进行训练,而同时获取真实的下雨和不下雨的场景图像很困难的,所以往往此类任务是在合成数据集上训练导致在真实场景中泛化能力较差。

本文方案:提出一种基于高斯过程的半监督学习框架,使得网络在学习中使用合成数据集进行去雨训练时,同时使用未标注的真实世界图像,以使网络能更好地泛化。

结果:在几个具有挑战性的数据集(如Rain800、Rain200H和DDN-SIRR)上的大量实验表明,即使在有限的标注数据上进行训练,所提出的方法依然可以达到与完全标注训练相当的性能。

与现有的方法相比,去雨表现更优。

作者 | Rajeev Yasarla Vishwanath A. Sindagi Vishal M. Patel

单位 | 约翰斯霍普斯金大学

论文 | https://arxiv.org/abs/2006.05580

代码 | https://github.com/rajeevyasarla/Syn2Real

图像超分辨率

#CVPR 2020#

Learning Texture Transformer Network for Image Super-Resolution

图像超分辨率学习纹理Transformer网络

作者 | Fuzhi Yang, Huan Yang, Jianlong Fu, Hongtao Lu, Baining Guo

单位 | 上海交通;微软,中国

论文 | https://arxiv.org/abs/2006.04139

代码 | https://github.com/FuzhiYang/TTSR(即将)

解读:

CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片

无监督、自监督

#ICML2020#

Implicit Class-Conditioned Domain Alignment for Unsupervised Domain Adaptation

提出了一种无监督域自适应的方法-着重于域内类不平衡和域间类分配偏移。

当前类条件域对齐的方法旨在基于目标域的伪标签估计来显着最小化损失函数。缺点:存在误差积累形式的伪标签偏差

本文方案:提出一种基于抽样的隐式对齐方法,其中样本选择过程是由伪标签隐式引导的。

结果:实证结果和消融研究证实了所提出的方法的有效性,特别是在域内类不平衡和域间类分布偏移的情况下。

作者 | Xiang Jiang, Qicheng Lao, Stan Matwin, Mohammad Havaei

单位 | Imagia, Canada;达尔豪斯大学等

论文 | https://arxiv.org/abs/2006.04996

代码 | https://github.com/xiangdal/implicit_alignment

#CVPR2020 Oral#

A Self-supervised Approach for Adversarial Robustness

对抗鲁棒的一种自监督学习方法

作者 | Muzammal Naseer, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Fatih Porikli

单位 | Data61;澳大利亚国立大学;林雪平大学等

论文 | https://arxiv.org/abs/2006.04924

代码 | https://github.com/Muzammal-Naseer/NRP

CV + NLP,迁移学习

#迁移学习#

VirTex: Learning Visual Representations from Textual Annotations

VirTex:从文本标注中学习视觉表示

目的:从较少的图像中学习高质量的视觉表示,并寻求数据效率高的替代方法来替代基于分类的预训练。

方案:提出VirTex,一种使用语义密集的字幕来学习视觉表示的预训练方法。在COCO Captions上从头开始训练卷积网络,并将其迁移到下游识别任务(downstream recognition tasks)中,包括图像分类、目标检测和实例分割。

结果:在所有任务中,不管是监督还是无监督学习,即使仅用原来图像数量的1/10,VirTex匹配或优于使用ImageNet进行预训练的模型。

作者 | Karan Desai, Justin Johnson

单位 | 密歇根大学

论文 | https://arxiv.org/abs/2006.06666

代码 | https://github.com/kdexd/virtex

关于手的数据集

# CVPR 2020 (Oral)#

Understanding Human Hands in Contact at Internet Scale

互联网规模级别的人手数据集

作者 | Dandan Shan, Jiaqi Geng, Michelle Shu, David F. Fouhey

单位 | 密歇根大学;约翰斯霍普金斯

目的:手是人类操纵世界的主要手段,获取互联网视频中手的状态信息,从petabytes级视频数据中学习。

本文方案:通过推断一个丰富的手参与交互方法的表示,包括:手的位置、侧面、接触状态和接触物体周围的盒子。

收集了一个大规模的手与物体接触的数据集,包括131天的镜头以及一个100K标注的手接触视频帧数据集。

在这个数据集上学习的模型可以作为视频中手接触理解的基础。对其进行了量化评估,既可以单独使用,也可以服务于对人体手部3D网格的预测和学习。

论文 | https://arxiv.org/abs/2006.06669

代码 | http://fouheylab.eecs.umich.edu/~dandans/projects/100DOH/download.html

网站 | http://fouheylab.eecs.umich.edu/~dandans/projects/100DOH/

机器学习

Closed Loop Neural-Symbolic Learning via Integrating Neural Perception, Grammar Parsing, and Symbolic Reasoning

通过集成神经感知,语法解析和符号推理的闭环神经符号学习

整合神经感知,语法分析和符号推理的闭环Neuro-Symbolic学习

Neuro-symbolic计算的目标是整合连接主义和符号主义范式。先前是通过强化学习方法进行neural-symbolic模型学习。

缺点:忽略了符号推理模块中的错误传播,导致稀疏奖励。

本文方案:

1)日期语法模型作为符号先验来连接神经感知和符号推理;

2)提出一种新颖的反向搜索算法,它模仿自上而下一个类似于人的学习程序,通过符号推理模块有效地进行误差反向传播。

我们进一步将建议的学习框架解释为使用Markov链蒙特卡洛采样和反向搜索算法作为Metropolis-Hastings采样器的最大似然估计。

在两个弱监督neural-symbolic任务上实验:

1)在新的HWF数据集上进行手写公式识别;

2)在CLEVR数据集上进行视觉问题回答。

结果:该方法在性能,收敛速度和数据效率方面明显好于RL方法。

作者| 李青,黄思远,洪以宁,陈以新,吴应年,朱松春

单位| 加州大学

论文| https://arxiv.org/abs/2006.06649

代码| https://github.com/liqing-ustc/NGS

网站| https://liqing-ustc.github.io/NGS/

3D人体网格

#CVPR 2020#

3D Human Mesh Regression with Dense Correspondence

密集对应的3D人体网格回归

从二维图像估计人体三维网格是一项重要的任务,应用于增强现实与人机交互等。

先前的工作是利用卷积神经网络(CNN)从全局图像特征重建3D网格,

缺点:网格面与图像像素之间的密集对应关系缺失,导致解决方案不理想。

本文方案:提出一种model-free的三维人体网格估计框架,命名为DecoMR,它显式地建立了网格与局部图像特征在UV空间(即用于三维网格纹理映射的二维空间)中的密集对应关系。

结果:实验表明,所提出的局部特征对齐和连续UV Map在多个公共基准上优于现有的基于3D网格的方法。

作者 | Wang Zeng, Wanli Ouyang, Ping Luo, Wentao Liu, Xiaogang Wang

单位 | 港中大;悉尼大学;香港大学;商汤

论文 | https://arxiv.org/abs/2006.05734

代码 | https://github.com/zengwang430521/DecoMR

光流算法

What Matters in Unsupervised Optical Flow

无监督光流算法研究

光流算法在很多计算机视觉任务中有重要作用,比如运动分析、目标跟踪等。

来自谷歌的研究人员系统地比较和分析了无监督光流算法中的一组关键组件,包括:

1)photometric loss,

2)occlusion handling,

3)smoothness regularization,

以确定哪些是有效的。

基于以上研究,该文作者结合

1)cost volume normalization,

2)stopping the gradient at the occlusion mask,

3)encouraging smoothness before upsampling the flow field,

4) continual self-supervision with image resizing

构建了新的无监督光流算法。

实验显示上述新方法大大改进了无监督光流的精度,甚至在KITTi 2015数据集上与有监督光流算法 FlowNet2 比肩,算法也更加简单。

作者 | Rico Jonschkowski, Austin Stone, Jonathan T. Barron, Ariel Gordon, Kurt Konolige, Anelia Angelova

单位 | 谷歌

论文 | https://arxiv.org/abs/2006.04902

代码 | https://github.com/google-research/google-research/tree/master/uflow

目标跟踪

#CVPR2020 oral ##多目标跟踪#

TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training Model

TubeTK:在单步训练模型中采用Tubes去跟踪多目标

目前深度学习给目标检测算法带来了优异的性能,先检测再跟踪的方法(Tracking by Detection,TBD)已经成为主流的跟踪框架。

TBD的劣势:过于复杂,无法进行端到端的训练,对视频时空信息的利用不足,对目标遮挡不够鲁棒,以及对目标检测结果的过度依赖等。

本文方案:提出了一个简洁的端到端模型TubeTK,通过引入 "bounding-tube "来表示短视频片段中目标的时空位置,只需要一步训练。TubeTK提供了一个新颖的多目标跟踪方向,

实验结果表明:TubeTK可以在一定程度上克服遮挡,而不需要其他辅助技术,如Re-ID。

与其他采用私有检测结果的方法相比,该单阶段端到端模型即使不使用现成的目标检测的结果,也能达到最先进的性能。

作者 | Bo Pang, Yizhuo Li, Yifan Zhang, Muchen Li, Cewu Lu

单位 | 上海交通大学;华中科技大学

论文 | https://arxiv.org/abs/2006.05683

代码 | https://github.com/BoPang1996/TubeTK

Siamese Keypoint Prediction Network for Visual Object Tracking

视觉目标跟踪中的孪生关键点预测网络

近年来通过利用离线特征学习,siamese范式最近成为高性能目标跟踪的领先框架。

挑战:严重依赖复杂的基于锚的检测网络,缺乏抵抗干扰因素的能力。

本文方案:本文提出孪生关键点预测网络。

结果:SiamKPN在OTB-100、VOT2018、LaSOT和GOT-10k四个基准数据集上达到SOTA性能,且可以实时运行。

作者 | Qiang Li, Zekui Qin, Wenbo Zhang, Wen Zheng

单位 | 快手科技

论文 | https://arxiv.org/abs/2006.04078

代码 | https://github.com/ZekuiQin/SiamKPN

鲁棒学习

#CVPR 2020 oral#

Robust Learning Through Cross-Task Consistency

通过跨任务一致性实现稳健学习

作者 | Amir Zamir, Alexander Sax, Teresa Yeo, Oğuzhan Kar, Nikhil Cheerla, Rohan Suri, Zhangjie Cao, Jitendra Malik, Leonidas Guibas

单位 | 苏黎世联邦理工学院;斯坦福;伯克利

论文 | https://arxiv.org/abs/2006.04096

代码 | https://github.com/EPFL-VILAB/XTConsistency

网站 | https://consistency.epfl.ch/

在我爱计算机视觉公众号对话框回复“CVCode”即可获取以上所有论文下载地址。(网盘位置:Code周报--20200602期)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档