专栏首页CVer[计算机视觉论文速递] 2018-04-28

[计算机视觉论文速递] 2018-04-28

通知:这篇文章有6篇论文速递信息,涉及视觉跟踪、Zero-shot Learning、GAN和人员计数等方向(含2篇CVPR论文)

[1]《View Extrapolation of Human Body from a Single Image》

CVPR 2018

Abstract:我们研究如何从单个图像合成人体的新视图。尽管最近基于深度学习的方法对于刚性物体很适用,但它们通常在大型关节的物体(如人体)上失败。现有方法的核心步骤是将可观察的视图与CNN的新视图相匹配;然而,人体丰富的发音模式使得CNN很难记忆和插入数据。为了解决这个问题,我们提出了一种新的基于深度学习的pipeline,明确地估计和利用underlying人体的几何形状。我们的pipeline是一个形状估计网络和一个图像生成网络的组合,并且在接口处应用透视变换来生成像素值传输的正向流。我们的设计能够将数据变化的空间分解出来,并使每一步的学习变得更容易。经验上,我们表明姿态变化对象的性能可以大大提高。我们的方法也可应用于3D传感器捕获的实际数据,并且我们的方法生成的流可用于生成高分辨率的高质量结果。

arXiv:https://arxiv.org/abs/1804.04213

视觉跟踪

[2]《VITAL: Visual Tracking via Adversarial Learning》

CVPR 2018

Abstract:Tracking-by-detection框架由两个阶段组成,即在第一阶段在目标对象周围drawing样本,并在第二阶段将每个样本分类为目标对象或将其分类为背景。使用深度分类网络的现有跟踪器的性能受到两方面的限制。首先,每帧中的正样本在空间上是高度重叠的,它们不能捕捉到丰富的外观变化。其次,正面和负面样本之间存在极端的class失衡。本文介绍了通过对抗学习(adversarial learning)解决这两个问题的VITAL算法。为了增加正样本,我们使用生成网络随机生成掩模,将其应用于自适应丢失输入特征以捕捉各种外观变化。通过使用对抗学习(adversarial learning),我们的网络可以识别在长时间跨度上保持目标对象最稳健特征的mask。另外,为了处理类别失衡的问题,我们提出了一个高阶的代价(cost)敏感性损失来减少简单负样本的影响,以便于训练分类网络。在基准数据集上的大量实验表明,所提出的跟踪器是state-of-the-art。

arXiv:https://arxiv.org/abs/1804.04273

注:还有对抗学习(adversarial learning),简直太秀了

Zero-shot

[3]《A Large-scale Attribute Dataset for Zero-shot Learning》

Abstract:Zero-Shot Learning (ZSL) has attracted huge research attention over the past few years; it aims to learn the new concepts that have never been seen before. In classical ZSL algorithms, attributes are introduced as the intermediate semantic representation to realize the knowledge transfer from seen classes to unseen classes. Previous ZSL algorithms are tested on several benchmark datasets annotated with attributes. However, these datasets are defective in terms of the image distribution and attribute diversity. In addition, we argue that the "co-occurrence bias problem" of existing datasets, which is caused by the biased co-occurrence of objects, significantly hinders models from correctly learning the concept. To overcome these problems, we propose a Large-scale Attribute Dataset (LAD). Our dataset has 78,017 images of 5 super-classes, 230 classes. The image number of LAD is larger than the sum of the four most popular attribute datasets. 359 attributes of visual, semantic and subjective properties are defined and annotated in instance-level. We analyze our dataset by conducting both supervised learning and zero-shot learning tasks. Seven state-of-the-art ZSL algorithms are tested on this new dataset. The experimental results reveal the challenge of implementing zero-shot learning on our dataset.

arXiv:https://arxiv.org/abs/1804.04314

注:这里搬原文很舒服,里面英文单词看着容易理解(绝不是俺偷懒)

Home Actions数据集

[4]《STAIR Actions: A Video Dataset of Everyday Home Actions》

Abstact:介绍一种新的用于人类行为识别的大型视频数据集,称为STAIR Actions。 STAIR行动包含100个类别的行为标签,代表细致的日常家庭行为,因此它可以应用于各种家庭任务的研究,如护理,关怀和安全。 在STAIR操作中,每个视频都有一个动作标签。 此外,对于每个行动类别,大约有1,000个视频是从YouTube获得的或由众包工作者制作的。 每个视频的持续时间大多是五到六秒。 视频总数为102,462。 我们解释了我们如何构建STAIR操作并显示STAIR操作与现有数据集进行人类操作识别相比较的特点。 三种主要动作识别模型的实验表明,STAIR Actions可以训练大型模型并获得良好的性能。

arXiv:https://arxiv.org/abs/1804.04326

datasets:https://actions.stair.center/

注:NB且新奇的数据集

GAN

[5]《MelanoGANs: High Resolution Skin Lesion Synthesis with GANs》

Abstract:生成对抗网络(GANs)已成功用于合成逼真的人脸图像,风景甚至医学图像。不幸的是,它们通常需要大量的训练数据集,而这些数据集在医学领域通常很少见,而且据我们所知,GAN仅以相当低的分辨率应用于医学图像合成。然而,许多最先进的机器学习模型都使用高分辨率数据,因为这些数据具有不可或缺的重要信息。在这项工作中,我们尝试使用GANs生成逼真的高分辨率皮肤损伤图像,仅使用2000个样本的小型训练数据集。数据的性质使我们可以直接比较生成的样本和真实数据集的图像统计数据。我们在数量和质量上比较了DCGAN和LAPGAN等最先进的GAN体系结构,并对后者进行了256x256px分辨率图像生成任务的修改。我们的调查显示,我们可以用所有模型逼近真实的数据分布,但是在视觉上评估样本真实性,多样性和工件时,我们注意到主要差异。在一组关于皮肤损伤分类的用例实验中,我们进一步表明,我们可以借助合成的高分辨率黑素瘤样本成功解决严重的类失衡问题。

arXiv:https://arxiv.org/abs/1804.04338

人员计数

[6]《Benchmark data and method for real-time people counting in cluttered scenes using depth sensors》

Abstract:实时自动统计人员在安全,安全和物流方面有着广泛的应用。然而,目前还没有针对这个问题的基准方法的大规模公共数据集。为填补这一空白,我们推出了第一个真实世界的RGB-D人数统计数据集(PCDS),其中包含正常和混乱条件下在公交车入口处录制的4,500多个视频。我们还提出了一种有效的方法,可以单独使用深度视频来计算真实世界混乱场景中的人物。所提出的方法从深度视频帧计算点云,并将其重新投影到地平面上以对深度信息进行归一化。分析得到的深度图像以识别潜在的人头。使用3D人体模型对人体头部提议进行了精心设计。跟踪连续视频流的每个帧中的提议以追踪它们的轨迹。轨迹再次被改进以确定可靠的计数。人们最终通过累积离开现场的头部轨迹来计数。为了实现有效的头部和轨迹识别,我们还提出了两种不同的复合特征。对PCDS进行全面评估表明,我们的整体技术能够在1.7 GHz处理器上以45 fps的高精度对凌乱场景中的人员进行计数。

arXiv:https://arxiv.org/abs/1804.04339

本文分享自微信公众号 - CVer(CVerNews),作者:Amusi

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 亚马逊提出:用于人群计数的尺度感知注意力网络

    最近出了真的很多论文,各种SOTA。比如前天po的商汤等提出:统一多目标跟踪框架,今天po的人群计数(Crowd Counting),又称人群密度估计。下次应该...

    Amusi
  • 一文看尽21篇目标检测最新论文(腾讯/Google/商汤/旷视/清华/浙大/CMU/华科/中科院等)

    CVer 有几天没更新论文速递了,主要是这段时间的论文太多,而且质量较高的论文也不少,所以为了方便大家阅读,我已经将其中的目标检测(Object Detecti...

    Amusi
  • 德克萨斯大学提出:One-stage目标检测最强算法 ExtremeNet

    今天头条推送的是目前人脸检测方向的SOTA论文:改进SRN人脸检测算法。本文要介绍的是目前(2019-01-26) one-stage目标检测中最强算法:Ext...

    Amusi
  • 线性回归与最小二乘法 | 机器学习笔记

    这篇笔记会将几本的线性回归概念和最小二乘法。 在机器学习中,一个重要而且常见的问题就是学习和预测特征变量(自变量)与响应的响应变量(应变量)之间的函数关系 ...

    用户1332428
  • 脑机接口与神经资本主义的危险(CS HC)

    我们回顾了现有趋势与讨论脑机接口及其将产生的数据之间的关系。然后我们设想了大脑计算机接口技术的成熟如何影响称为神经资本主义的神经数据交易。我们探索这将如何对我们...

    gaowanting
  • Python中BaseException和Exception的区别

    分析源码发现 BaseException 是 Exception 的父类,作为子类的Exception无法截获父类BaseException类型的错误

    马哥Python
  • Codeforces 842B Gleb And Pizza【几何,水】

    B. Gleb And Pizza time limit per test:2 seconds memory limit per test:256 megaby...

    Angel_Kitty
  • 祝贺张黔教授被授予中国香港科技大学腾讯工程学教授席

    2016年3月9日,香港科技大学举行第三届冠名教授席就职典礼,向“腾讯工程学教授席”获得者张黔教授等八位杰出教授颁授冠名教授席。腾讯公司副总裁王巨宏女士、腾讯...

    腾讯高校合作
  • 多标签分类中的监督最小化(CS CV)

    大多数图像中都存在多类对象。将其视为多类分类是不合理的。我们应该将其作为多标签分类问题来处理。在本文中,我们进一步的目标是将多标签分类中提供监督所需的监督最小化...

    刘持诚
  • 用数据公理化混合XPath (CS.LD)

    在本文中,我们介绍了具有混合约束扩展的数据约束的XPath健全且完全完备的公理化。首先,我们介绍HXPath =,它是XPath的多模式版本,其数据扩展了标称值...

    蔡小雪7100294

扫码关注云+社区

领取腾讯云代金券