[计算机视觉论文速递] 2018-06-06

导言

这篇文章有4篇论文速递信息,涉及目标跟踪、GAN、Zero-Shot Learning、视频分类和行人重识别等方向(含一篇IJCAI 2018和一篇IROS 2018 submission )。

编辑: Amusi

校稿: Amusi

前戏

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、fork和pull。

直接点击“阅读全文”即可访问daily-paper-computer-vision

link: https://github.com/amusi/daily-paper-computer-vision

Image Classification

《Detection-Tracking for Efficient Person Analysis: The DetTA Pipeline》

IROS 2018 submission

The presented pipeline

Abstract:在过去的十年中,很多机器人都被部署在户外,行人检测和跟踪是此类部署的重要组成部分。最重要的是,经常需要运行模块来分析人员并提取更高级别的属性,如年龄和性别,或者动态信息,如注视(gaze)和姿势。后者对于构建一个反应性的(reactive)社交机器人 - 人员交互尤为必要。

在本文中,我们将这些组件组合在完全模块化的检测跟踪分析流程(pipeline)中,称为DetTA。我们通过使用一致的跟踪ID来对分析模块的观测结果进行时间滤波(temporal filtering),在头部和骨骼姿态的例子中研究这种集成的好处,显示出在具有挑战性的真实世界情景中略有改善。我们还研究了所谓“自由飞行”(free-light)模式的潜力,其中人员属性的分析仅依赖于过滤器对特定帧的预测。在这里,我们的研究表明,这极大地提高了运行时间,而预测质量保持稳定。当在移动平台上运行许多分析组件时,特别是在代价很高的深度学习方法时代,这种见解对于降低功耗和共享宝贵的(GPU)显存尤其重要。

arXiv:https://arxiv.org/abs/1804.10134

github:https://github.com/sbreuers/detta

GAN & Zero-Shot Learning & Video Classfication

《Visual Data Synthesis via GAN for Zero-Shot Video Classification》

IJCAI 2018

Architecture of the proposed framework

Abstract:视频分类中的Zero-Shot Learning(ZSL)是一个有前途的研究方向,旨在应对视频类别爆炸性增长带来的挑战。大多数现有的方法通过学习视觉和语义空间之间的投影(projection)来利用看不见的相关性。然而,这种基于投影的范式不能充分利用数据分布中隐含的区分信息,而且常常遭受由“异质性差距”(heterogeneity gap)引起的信息退化问题。在本文中,我们通过GAN提出了一个可视化数据合成框架来解决这些问题。具体而言,利用语义知识和视觉分布来合成未见类别的视频特征,并将ZSL转化为具有综合特征的典型监督问题。首先,我们提出了多层次的语义推理来促进视频特征合成,通过特征层次和标签层次语义推断来捕获联合视觉语义分布所蕴含的判别信息。其次,我们提出匹配感知互信息相关来克服信息降级问题,该问题通过互信息捕获匹配和不匹配视觉语义对中的看不见的相关性,为 zero-shot 合成过程提供鲁棒的引导信号。在四个视频数据集上的实验结果表明,我们的方法可以显着提高 zero-shot 视频分类性能。

arXiv:https://arxiv.org/abs/1804.10073

注:作为CV初学者表示,最近Zero-Shot Learning的曝光量很足啊!GAN的魅力依旧那么强!

Generative Model

《Generative Model for Heterogeneous Inference》

arXiv 2018

Overview of our proposed EAR model

Abstract:例如生成对抗网络(GAN)和变分自编码(VAE)等生成模型(GM)近年来蓬勃发展,并在生成新样本方面取得了高质量的结果。特别是在计算机视觉领域,GMs已经被用于图像修复(image inpainting),去噪(denoising)等领域,其可以被视为从观察像素到被破坏的像素的推断(inference)。然而,图像是分层结构的,与许多具有非分层特征的真实世界推断场景截然不同。这些推断方案包含异构随机变量和不规则的相互依赖。传统上它们是由贝叶斯网络(BN)建模的。然而,BN模型的学习和推理是NP-hard的,因此BN中的随机变量数量受到很大限制。在本文中,我们采用典型的GMs来实现多项式时间(polynomial time)的异构学习(heterogeneous learning )和推理。我们还提出了一个扩展的自回归(EAR)模型和一个带有对抗损失的EARA模型,并给出了它们有效性的理论结果。对几个BN数据集的实验表明,与其他GM相比,我们提出的EAR模型在大多数情况下实现了最佳性能。除黑箱(black box)分析外,我们还对GMs的马尔可夫边界推理进行了一系列白盒(white box)分析实验,并给出了理论结果。

arXiv:https://arxiv.org/abs/1804.09858

注:很硬的论文啊!

Re-ID

《Domain Adaptation through Synthesis for Unsupervised Person Re-identification》

arXiv 2018

Unsupervised Domain Adaptation

Semantic Shift Regularization

Domain translation results

Abstract:监控摄像机照明(illumination)的巨大差异使得行人重识别问题极具挑战性。目前的大规模重识别(re-identification)数据集具有大量的训练主题,但缺乏光照条件的多样性。因此,训练好的模型需要微调(fine-tuning)才能在看不见的照明条件下变得有效。为了缓解这个问题,我们引入了一个新的合成数据集,其中包含数百个照明条件。具体而言,我们使用100个虚拟人照亮多个HDR环境地图,这些地图可精确模拟真实的室内和室外照明。为了在看不见的照明条件下获得更好的准确性,我们提出了一种新颖的领域适应技术,它利用我们的合成数据并以完全无监督的方式进行微调。我们的方法比半监督和无监督的最先进的方法具有更高的准确性,并且与监督技术非常具有竞争力。

arXiv:https://arxiv.org/abs/1804.1009

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-06-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

机器学习算法分类

最近看到对机器学习各种算法从另一个角度的分类,觉得很有意思,于是画了几张图,把它们重新整理了一下。 首先依然是有监督地学习,而有监督地学习又能分为回归和分类两种...

3109
来自专栏CDA数据分析师

数据挖掘:聚类算法概述

本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。 聚类 VS 分类 分类是...

24310
来自专栏前沿技墅

“机器学习”三重门,“中庸之道”趋若人

博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/...

1534
来自专栏AI科技评论

Hinton新作「在线蒸馏」,提升深度学习分布式训练表现的利器

有无穷无尽的计算资源并不一定可以为所欲为。但知识蒸馏似乎可以帮你尽量突破分布式随机梯度下降的瓶颈!

1654
来自专栏AI科技评论

视频 | 斯坦福大学提出自监督人脸模型:250Hz 单眼可重建

本文为雷锋字幕组编译的 CVPR 2018 Oral 论文解读短视频,论文题目 Self-supervised Face Model Learning for ...

1032
来自专栏机器之心

NeurIPS 2018亮点选读:深度推理学习中的图网络与关系表征

作者简介:Angulia Yang 毕业于新加坡国立大学,目前从事人工智能相关计算机视觉 (Computer Vision) 的研究与开发工作,主要工作方向集中...

5932
来自专栏新智元

首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?

【新智元导读】Facebook 在尝试使用“门卷积网络”的方法来为语言建模,最近,他们首次取得了超过递归神经网络方法建模方法的性能表现,性能了超越目前被认为是...

2885
来自专栏新智元

ICLR 2019评审结果出炉!一文看全平均8分论文

至于录取率,目前还没有官方公布。从ICLR 2018的情况来看,平均分达到6.57可以被接收,Top 33%的论文可以被接收为poster或talk。但今年的投...

1453
来自专栏机器学习和数学

[机智的机器在学习] 卷积神经网络入门教程(1)

机智的机器在学习,就像机智的你现在在学习一样,当你在看这篇文章的时候,你就是在学习,学习的材料(数据)就是这篇文章。学习的结果就是你了解了卷积神经网络是个什么鬼...

3926
来自专栏AI科技评论

CVPR2016 | 李飞飞实验室论文:视频中人物的可视化指南

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人峰会”(简称CCF-GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头...

36412

扫码关注云+社区

领取腾讯云代金券