[计算机视觉论文速递] 2018-04-28

通知:这篇文章有6篇论文速递信息,涉及视觉跟踪、Zero-shot Learning、GAN和人员计数等方向(含2篇CVPR论文)

[1]《View Extrapolation of Human Body from a Single Image》

CVPR 2018

Abstract:我们研究如何从单个图像合成人体的新视图。尽管最近基于深度学习的方法对于刚性物体很适用,但它们通常在大型关节的物体(如人体)上失败。现有方法的核心步骤是将可观察的视图与CNN的新视图相匹配;然而,人体丰富的发音模式使得CNN很难记忆和插入数据。为了解决这个问题,我们提出了一种新的基于深度学习的pipeline,明确地估计和利用underlying人体的几何形状。我们的pipeline是一个形状估计网络和一个图像生成网络的组合,并且在接口处应用透视变换来生成像素值传输的正向流。我们的设计能够将数据变化的空间分解出来,并使每一步的学习变得更容易。经验上,我们表明姿态变化对象的性能可以大大提高。我们的方法也可应用于3D传感器捕获的实际数据,并且我们的方法生成的流可用于生成高分辨率的高质量结果。

arXiv:https://arxiv.org/abs/1804.04213

视觉跟踪

[2]《VITAL: Visual Tracking via Adversarial Learning》

CVPR 2018

Abstract:Tracking-by-detection框架由两个阶段组成,即在第一阶段在目标对象周围drawing样本,并在第二阶段将每个样本分类为目标对象或将其分类为背景。使用深度分类网络的现有跟踪器的性能受到两方面的限制。首先,每帧中的正样本在空间上是高度重叠的,它们不能捕捉到丰富的外观变化。其次,正面和负面样本之间存在极端的class失衡。本文介绍了通过对抗学习(adversarial learning)解决这两个问题的VITAL算法。为了增加正样本,我们使用生成网络随机生成掩模,将其应用于自适应丢失输入特征以捕捉各种外观变化。通过使用对抗学习(adversarial learning),我们的网络可以识别在长时间跨度上保持目标对象最稳健特征的mask。另外,为了处理类别失衡的问题,我们提出了一个高阶的代价(cost)敏感性损失来减少简单负样本的影响,以便于训练分类网络。在基准数据集上的大量实验表明,所提出的跟踪器是state-of-the-art。

arXiv:https://arxiv.org/abs/1804.04273

注:还有对抗学习(adversarial learning),简直太秀了

Zero-shot

[3]《A Large-scale Attribute Dataset for Zero-shot Learning》

Abstract:Zero-Shot Learning (ZSL) has attracted huge research attention over the past few years; it aims to learn the new concepts that have never been seen before. In classical ZSL algorithms, attributes are introduced as the intermediate semantic representation to realize the knowledge transfer from seen classes to unseen classes. Previous ZSL algorithms are tested on several benchmark datasets annotated with attributes. However, these datasets are defective in terms of the image distribution and attribute diversity. In addition, we argue that the "co-occurrence bias problem" of existing datasets, which is caused by the biased co-occurrence of objects, significantly hinders models from correctly learning the concept. To overcome these problems, we propose a Large-scale Attribute Dataset (LAD). Our dataset has 78,017 images of 5 super-classes, 230 classes. The image number of LAD is larger than the sum of the four most popular attribute datasets. 359 attributes of visual, semantic and subjective properties are defined and annotated in instance-level. We analyze our dataset by conducting both supervised learning and zero-shot learning tasks. Seven state-of-the-art ZSL algorithms are tested on this new dataset. The experimental results reveal the challenge of implementing zero-shot learning on our dataset.

arXiv:https://arxiv.org/abs/1804.04314

注:这里搬原文很舒服,里面英文单词看着容易理解(绝不是俺偷懒)

Home Actions数据集

[4]《STAIR Actions: A Video Dataset of Everyday Home Actions》

Abstact:介绍一种新的用于人类行为识别的大型视频数据集,称为STAIR Actions。 STAIR行动包含100个类别的行为标签,代表细致的日常家庭行为,因此它可以应用于各种家庭任务的研究,如护理,关怀和安全。 在STAIR操作中,每个视频都有一个动作标签。 此外,对于每个行动类别,大约有1,000个视频是从YouTube获得的或由众包工作者制作的。 每个视频的持续时间大多是五到六秒。 视频总数为102,462。 我们解释了我们如何构建STAIR操作并显示STAIR操作与现有数据集进行人类操作识别相比较的特点。 三种主要动作识别模型的实验表明,STAIR Actions可以训练大型模型并获得良好的性能。

arXiv:https://arxiv.org/abs/1804.04326

datasets:https://actions.stair.center/

注:NB且新奇的数据集

GAN

[5]《MelanoGANs: High Resolution Skin Lesion Synthesis with GANs》

Abstract:生成对抗网络(GANs)已成功用于合成逼真的人脸图像,风景甚至医学图像。不幸的是,它们通常需要大量的训练数据集,而这些数据集在医学领域通常很少见,而且据我们所知,GAN仅以相当低的分辨率应用于医学图像合成。然而,许多最先进的机器学习模型都使用高分辨率数据,因为这些数据具有不可或缺的重要信息。在这项工作中,我们尝试使用GANs生成逼真的高分辨率皮肤损伤图像,仅使用2000个样本的小型训练数据集。数据的性质使我们可以直接比较生成的样本和真实数据集的图像统计数据。我们在数量和质量上比较了DCGAN和LAPGAN等最先进的GAN体系结构,并对后者进行了256x256px分辨率图像生成任务的修改。我们的调查显示,我们可以用所有模型逼近真实的数据分布,但是在视觉上评估样本真实性,多样性和工件时,我们注意到主要差异。在一组关于皮肤损伤分类的用例实验中,我们进一步表明,我们可以借助合成的高分辨率黑素瘤样本成功解决严重的类失衡问题。

arXiv:https://arxiv.org/abs/1804.04338

人员计数

[6]《Benchmark data and method for real-time people counting in cluttered scenes using depth sensors》

Abstract:实时自动统计人员在安全,安全和物流方面有着广泛的应用。然而,目前还没有针对这个问题的基准方法的大规模公共数据集。为填补这一空白,我们推出了第一个真实世界的RGB-D人数统计数据集(PCDS),其中包含正常和混乱条件下在公交车入口处录制的4,500多个视频。我们还提出了一种有效的方法,可以单独使用深度视频来计算真实世界混乱场景中的人物。所提出的方法从深度视频帧计算点云,并将其重新投影到地平面上以对深度信息进行归一化。分析得到的深度图像以识别潜在的人头。使用3D人体模型对人体头部提议进行了精心设计。跟踪连续视频流的每个帧中的提议以追踪它们的轨迹。轨迹再次被改进以确定可靠的计数。人们最终通过累积离开现场的头部轨迹来计数。为了实现有效的头部和轨迹识别,我们还提出了两种不同的复合特征。对PCDS进行全面评估表明,我们的整体技术能够在1.7 GHz处理器上以45 fps的高精度对凌乱场景中的人员进行计数。

arXiv:https://arxiv.org/abs/1804.04339

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

利用深度学习改变位置感知计算

位置感知位于定位服务(LBS)的核心位置。然而,准确地估计目标的位置并不那么简单。全球定位系统(GPS),可以直接输出地理空间坐标,但它的错误可能远远超出了某些...

41711
来自专栏AI科技大本营的专栏

AI 技术讲座精选:OpenAI 最新成果——利用对抗样本攻击机器学习

对抗样本是指攻击者故意设计以导致机器学习模型出错的输入样本;他们对机器来说就像是视觉幻觉一样。在本篇博文中,我们将向您展示对抗样本在不同介质中的运作原理,也将讨...

36410
来自专栏企鹅号快讯

伯克利人工智能研究:针对深度神经网络的物理对抗例子

AiTechYun 编辑:Yining ? 深度神经网络(DNNs)在各种应用领域都取得了巨大的进展,包括图像处理、文本分析和语音识别。深度神经网络也被作为许多...

2397
来自专栏CSDN技术头条

Kaggle 数据挖掘比赛经验分享

Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kagg...

6239
来自专栏企鹅号快讯

机器/深度学习的基础知识笔记

百度PaddlePaddle之新手入门培训视频(http://bit.baidu.com/course/detail/id/137.html)是一篇很好的机器学...

3919
来自专栏大数据文摘

斯坦福CS231N深度学习与计算机视觉第二弹:图像分类与KNN

1884
来自专栏AI研习社

手把手教你从零起步构建自己的图像搜索模型

很多的产品是基于我们的感知来吸引我们的。比如在浏览服装网站上的服装,寻找 Airbnb 上的假期租房,或者领养宠物时,物品的颜值往往是我们做决定的重要因素。想要...

1343
来自专栏大数据

10大数据挖掘算法及其简介

AiTechYun 编辑:xiangxiaoshan 我希望你能把这篇文章作为一个跳板,学习更多关于数据挖掘的知识。 算法如下: 1. C4.5 2. k-me...

1947
来自专栏PPV课数据科学社区

【学习】说说高斯过程回归

作者:冯牡丹 今天起会陆续写一些机器学习的notes,这次介绍一个很酷的idea,aka 高斯过程回归(Gaussian Process Regression)...

8135
来自专栏AI科技大本营的专栏

程序员想搞机器学习?看看Nodejs之父这一年摸爬滚打的心路历程

本文是Nodejs之父Ryan Dahl在Google Brain做了一年深度学习后的心得体会,他在那里的目标是用机器学习将卓别林的老电影自动修改到4K画质。他...

4407

扫码关注云+社区

领取腾讯云代金券