[计算机视觉论文速递] ECCV 2018 专场8

前戏

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、fork和pull。

直接点击“阅读全文”即可访问daily-paper-computer-vision

link: https://github.com/amusi/daily-paper-computer-vision

ECCV 2018是计算机视觉领域中的顶级会议,目前已经公开了部分已录用的paper。之前已经推送了七篇 ECCV 2018论文速递推文:

[计算机视觉论文速递] ECCV 2018 专场1

[计算机视觉论文速递] ECCV 2018 专场2

[计算机视觉论文速递] ECCV 2018 专场3

[计算机视觉论文速递] ECCV 2018 专场4

[计算机视觉论文速递] ECCV 2018 专场5

[计算机视觉论文速递] ECCV 2018 专场6

[计算机视觉论文速递] ECCV 2018 专场7

VAE

《MT-VAE: Learning Motion Transformations to Generate Multimodal Human Dynamics》

ECCV 2018

Abstract:Long-term human motion can be represented as a series of motion modes---motion sequences that capture short-term temporal dynamics---with transitions between them. We leverage this structure and present a novel Motion Transformation Variational Auto-Encoders (MT-VAE) for learning motion sequence generation. Our model jointly learns a feature embedding for motion modes (that the motion sequence can be reconstructed from) and a feature transformation that represents the transition of one motion mode to the next motion mode. Our model is able to generate multiple diverse and plausible motion sequences in the future from the same input. We apply our approach to both facial and full body motion, and demonstrate applications like analogy-based motion transfer and video synthesis.

Welcome to click AD

摘要:长期(long-term)人体运动可以表示为一系列运动模式 - 捕捉短期时间动态的运动序列 - 它们之间的过渡。我们利用这种结构,提出了一种新颖的运动变换变分自动编码器(MT-VAE),用于学习运动序列生成。我们的模型联合学习运动模式的特征嵌入(可以从中重建运动序列)和表示一个运动模式到下一个运动模式的转换的特征变换。我们的模型能够从相同的输入生成"未来"的多种多样且可信的运动序列。我们将此方法应用于面部和全身运动,并演示了基于类比的运动传递和视频合成等应用。

arXiv:https://arxiv.org/abs/1808.04545

Visual Reasoning

《Self-produced Guidance for Weakly-supervised Object Localization》

ECCV 2018

GuessWhat?!

The Multi-hop FiLM architecture

Abstract:Recent breakthroughs in computer vision and natural language processing have spurred interest in challenging multi-modal tasks such as visual question-answering and visual dialogue. For such tasks, one successful approach is to condition image-based convolutional network computation on language via Feature-wise Linear Modulation (FiLM) layers, i.e., per-channel scaling and shifting. We propose to generate the parameters of FiLM layers going up the hierarchy of a convolutional network in a multi-hop fashion rather than all at once, as in prior work. By alternating between attending to the language input and generating FiLM layer parameters, this approach is better able to scale to settings with longer input sequences such as dialogue. We demonstrate that multi-hop FiLM generation achieves state-of-the-art for the short input sequence task ReferIt --- on-par with single-hop FiLM generation --- while also significantly outperforming prior state-of-the-art and single-hop FiLM generation on the GuessWhat?! visual dialogue task.

摘要:最近计算机视觉和自然语言处理方面的突破激发了人们对挑战多模式任务(如视觉问答和视觉对话)的兴趣。对于这样的任务,一种成功的方法是通过特征线性调制(FiLM)层(即,每通道缩放和移位)来调节语言上基于图像的卷积网络计算。我们提出以多跳方式生成在卷积网络的层次结构上的FiLM层的参数,而不是像在先前的工作中那样一次生成。通过在参与语言输入和生成FiLM层参数之间交替,这种方法能够更好地扩展到具有较长输入序列的设置,例如对话(dialogue)。我们证明了多跳FiLM生成实现了短输入序列任务的最新技术参考 - 与单跳FiLM生成相媲美 - 同时也明显优于先前的先进技术GuessWhat上的单跳FiLM生成?!视觉对话任务。

arXiv:https://arxiv.org/abs/1808.04446

注:Amusi觉得将CV与NLP结合有非常大的研究意义和前景。

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

Ian Goodfellow & ICLR-17最佳论文得主新作:验证与测试,机器学习的两大挑战

AI 科技评论按:去年年底,Ian Goodfellow与Nicolas Papernot(是的,就是ICLR 2017的最佳论文得主之一)合作开了一个博客叫c...

3196
来自专栏CDA数据分析师

数据挖掘:聚类算法概述

本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。 聚类 VS 分类 分类是...

24310
来自专栏量子位

伯克利新研究:让深度强化学习不再一条道走到黑 | Paper+Code

问耕 编译自 BAIR Blog 量子位 出品 | 公众号 QbitAI 来自加州大学伯克利分校的博士生唐浩然(Haoran Tang)和Tuomas Haar...

36512
来自专栏大数据

单因子测试框架

SignalFactorAnalyse单因子测试框架哪些因子可以为组合提供超额收益?这是构建多因子模型的第一步,也是最关键一步。 特征选择非常关键,只有把握关键...

2855
来自专栏数据魔术师

机器学习与运筹学竟如此暧昧??

8985
来自专栏美团技术团队

深度学习在美团点评推荐平台排序中的运用

美团点评作为国内最大的生活服务平台,业务种类涉及食、住、行、玩、乐等领域,致力于让大家吃得更好,活得更好,有数亿用户以及丰富的用户行为。随着业务的飞速发展,美团...

5818
来自专栏量子位

想让AI读懂时尚?看看亚马逊新发的这两篇论文

安妮 编译整理 量子位 出品 | 公众号 QbitAI 亚马逊想让AI读懂时尚。 继在Echo Look中加入穿搭指导功能引发大量吐槽后,目前,亚马逊又发表了两...

3524
来自专栏量子位

224秒!ImageNet上训练ResNet-50最佳战绩出炉,索尼下血本破纪录

刚刚,索尼在arXiv上发文宣布:他们用224秒在ImageNet上完成了ResNet-50训练,没有明显的准确率损失。

1142
来自专栏机器学习和数学

[机智的机器在学习] 卷积神经网络入门教程(1)

机智的机器在学习,就像机智的你现在在学习一样,当你在看这篇文章的时候,你就是在学习,学习的材料(数据)就是这篇文章。学习的结果就是你了解了卷积神经网络是个什么鬼...

3926
来自专栏AI科技评论

学界 | 顶会见闻系列:ICML 2018(下),能量、GAN、监督学习、神经网络

AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,...

1174

扫码关注云+社区

领取腾讯云代金券