专栏首页人工智能前沿讲习AAAI2019录用论文选读

AAAI2019录用论文选读

导读


AAAI Conference是由美国人工智能协会(the Association for the Advance of Artificial Intelligence)每年举办一次的人工智能方面的顶级会议。近期AAAI2019的录取结果已出,投稿数量高达7745篇,录用率仅为16.2%。中科院自动化所研究所智能感知与计算研究中心7篇论文入选。

1. Disentangled Variational Representation for Heterogeneous Face Recognition


Xiang Wu, Huaibo Huang, Vishal M Patel, Ran He, Zhenan Sun

随着深度学习在人脸识别中的广泛应用以及手机移动终端的普及,异质人脸识别受到越来越多研究人员的关注。由于较大的模态差异以及缺乏足够多的训练数据,近红外-可见光异质人脸识别目前仍是一个有挑战性的问题。本文提出了一种变分解表达(Disentangled Variational Representation,DVR)方法来提高异质人脸识别的性能。受到生成式模型启发,我们试图在特征学习过程中引入重采样策略,来缓解卷积神经网络全连接层参数过多以至于过学习的问题。我们尝试去寻找一个独立的隐变量,利用变分下界优化近似后验概率分布,希望可以将人脸特征中所包含的身份信息和光谱信息进行解耦。为了更有效地求解身份特征表达,我们进一步假设近红外和可见光信息存在一个线性投影关系,从而约束了参数的求解空间。我们提出的变分解表达方法在CASIA NIR-VIS 2.0, Oulu-CASIA NIR-VIS和BUAA-VisNir三个数据库上显著地提高了异质人脸识别精度。

2. Geometry-Aware Face Completion and Editing


Linsen Song, Jie Cao,Lingxiao Song, Yibo Hu, Ran He

人脸补全是一项具有挑战性的图像生成任务。该任务要求对于输入的有遮挡的人脸图片生成视觉上真实的缺失内容,并且该生成的内容需要与未遮挡的内容相一致。我们提出了一种利用人脸几何信息来辅助人脸补全的模型。同时,相较于前人的模型,我们的模型还可以通过交互地修改人脸的几何信息来修改人脸的属性。首先,将有遮挡的人脸图片输入到“人脸几何信息估计网络”来推断合理的人脸几何信息图,其中包括人脸68个关键点的热度图和人脸语意分割图; 然后,将有遮挡的人脸几何图片与推断的人脸几何信息图直接串联为一个整体, 该整体输入到人脸补全的生成器中以生成完整的人脸; 最后,在图片补全中常用的全局与局部判别器将分别判断生成的完整人脸以及生成的补全区域内容的真伪性,由此提供人脸补全的对抗训练。最终我们的算法在MultiPIE与CelebA数据库上均取得了比目前人脸补全方法好的测试结果。

3. Visual-semantic Graph Reasoning for Pedestrian Attribute Recognition


Qiaozhe Li, Xin Zhao, Ran He, Kaiqi Huang

在监控场景下的行人属性识别中,较低的图像分辨率、显著的行人外观变化和属性定位的多样性使得这一任务极具挑战。在这篇文章中,我们将行人属性识别作为属性序列预测的问题,并且提出了一种新的视觉语义图推理框架来解决这一问题。我们的框架包含两种类型的图,分别用于建模空间关系和属性关系。通过图卷积网络(Graph Convolutional Network)进行推理,这两种类型的图可以分别描述图像局部区域的空间关系和属性的潜在语义关系。我们提出了端到端的学习框架,在这两个图之间实现了信息的互嵌入以指导彼此的关系学习。我们在三个大型行人属性数据集(PETA,RAP和PA-100k)上验证了所提出的框架。实验表明所提出的方法优于现有技术方法,同时证明了我们提出的协同训练框架在属性序列预测任务上的有效性。

4. Session-based Recommendation with Graph Neural Network


Shu Wu, Yuyuan Tang, Yanqiao Zhu, Liang Wang, Xing Xie, Tieniu Tan

会话(session)是服务器端用来记录识别用户的一种机制。在推荐系统中,基于会话的推荐(session-based recommendation)是依据一个时间窗口内用户连续的行为进行推荐。比如,一位用户在登录淘宝的这段时间里连续点击了10个商品,那么这10个商品就构成了一个短序列。由于会话数据具有海量、匿名的特点,session-basedrecommendation近来受到了广泛的关注。

为了更好地捕获会话的结构并考虑节点间的转换,我们提出了一种基于图形神经网络(graph neural network, GNN) 的会话推荐 (SR-GNN)方法。该方法将所有会话序列聚合在一起并建模为图结构。基于该图,GNN可以捕获项目的转换关系。之后我们使用注意力机制 (attention mechanism) 将每个会话表示为全局偏好和会话当前兴趣的组合并据此进行推荐。在两个开源数据上,我们的模型性能持续并显著地好于其他state-of-the-art方法。

5. Human-like Delicate Region Erasing Strategy for Weakly Supervised Detection


Qing En, Lijuan Duan, Zhaoxiang Zhang, Xiang Bai, Yundong Zhang

随着数据和对任务需求多样性的不断增长,获得大量用于训练深度学习的标注数据会花费巨大的金钱和时间成本。然而,在许多任务中,由于数据标注过程的成本极高,很难获得强监督标注信息。因此,在弱监督条件下进行图像的目标区域检测是要解决的关键问题。弱监督条件下进行视觉注意区域感知的难点在于训练样本没有强监督训练目标,使建模过程只基于弱监督标签,难以建立数据与目标之间的直接联系。

针对此问题,我们充分利用弱监督标签指导下的自底向上和自顶向下信息,采用深度强化学习(deep reinforcement learning)的方法构建输入数据、弱监督标记、目标三者间的关系,通过模拟人类聚焦动作,迭代进行区域检测。该方法从弱监督标记数据驱动的神经网络模型产生的特征图以及目标区域对于分类置信度的贡献出发,通过深度Q网络(deep Q-network)从动作空间中得到最优动作策略,迭代关注目标物体区域,选择最显著且对于分类置信度贡献大的区域作为视觉注意选择区域。该方法能有效地模仿人类的视觉机理,在两个公开数据集上的实验结果表明,在显著提升检测效率的同时,能够达到与其他state-of-the-art相当的效果。

6. Few-Shot Image and Sentence Matching via Gated Visual-Semantic Embedding


Yan Huang, Yang Long, Liang Wang

图像文本匹配最近受到了广泛的关注和研究,大部分已有工作主要侧重于解决图像文本之间的语义鸿沟问题。我们通过分析已有实验结果发现,目前最好的深度学习算法无法很好地解决小样本图像文本匹配的问题。因此,为了解决小样本匹配问题,我们提出了一个双流视觉语义嵌入网络,可以分别有针对性地解决频繁出现和不频繁出现的图像文本匹配问题。我们在公开数据集Flickr30k和MSCOCO上进行了大量实验,发现我们的模型无论在传统图像文本匹配还是小样本图像文本匹配任务上均取得了当前领先的结果。

7. Attention-aware Sampling via Deep Reinforcement Learning for Action Recognition


Wenkai Dong, Zhaoxiang Zhang, Tieniu Tan

深度学习在基于视频的行为识别领域取得了显著进展,大多数工作通过设计复杂的网络结构来学习视频的特征表示。在测试阶段,这些方法认为视频中的每一帧重要性相同,即对于一个待测试视频,以相同的步长对视频进行采样,然后将深度神经网络模型对每一帧的行为预测融合得到整个视频行为预测。然而,在一段视频中,具有判别力的行为可能只分散的分布在视频的部分帧中,大多数的帧与视频标注的行为无关甚至导致模型产生错误的行为预测。

因此,本文提出了一种注意力导向的采样方法,该方法可以在剔除视频中无关的帧的同时保留具有判别力的关键帧。由于缺少视频中关键帧的标注,本文将挖掘关键帧的过程形式化为马尔可夫决策过程,在不使用额外标注数据的条件下通过深度强化学习训练方法中使用的智能体。智能体根据每一帧的特征向量以及该帧对分类置信度的贡献,通过一次迭代对所有帧进行重要性评分,选择得分高的帧作为时域注意区域。在两个开源数据上,我们的模型取得很有竞争力的性能。

@ 智能感知与计算研究中心

版权声明

本文版权归《智能感知与计算研究中心》,转载请自行联系。

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【杂谈】那些酷炫的深度学习网络图怎么画出来的?

    这个工具可以非常方便的画出各种类型的图,是下面这位小哥哥开发的,来自于麻省理工学院弗兰克尔生物工程实验室, 该实验室开发可视化和机器学习工具用于分析生物数据。

    马上科普尚尚
  • 香港中文大学助理教授吕健勤:面向人脸分析的深度学习方法(WSB2018报告,附PPT)

    2018年生物特征识别冬令营(IAPR/IEEE Winter School on Biometrics 2018)由IAPR和IEEE冠名和赞助,于2018年...

    马上科普尚尚
  • SFFAI分享 | 曹杰:Rotating is Believing

    自动化所智能感知与计算研究中心在生成对抗网络(GAN)基础上提出高保真度的姿态不变模型来克服人脸识别任务中最为经典的姿态不一致问题。该模型不仅在多个基准数据集的...

    马上科普尚尚
  • 从事人脸识别研究必读的N篇文章

    该文内容较老,但对入门者还是有很强的学习意义,可以了解人脸识别的历程与技术发展。 人脸检测/跟踪 人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置...

    AI研习社
  • 一登更新SuperID-SDK,人脸检索功能上线

    一登人脸检索 功能上线,开发者可以在 SuperID-SDK 中,调取人脸检索模块进行功能定制,此功能优势在于在线下场景中,可作为用户身份验证的功能,用户无需输...

    BestSDK
  • 【深度学习系列】用PaddlePaddle进行人脸识别

    上个案例中我们讲了如何用PaddlePaddle进行车牌识别的方法,这次的案例中会讲到如何用PaddlePaddl进行人脸识别,在图像识别领域,人脸识别也属于...

    Charlotte77
  • 『深度应用』人脸识别最新进展及发展方向

    简单来讲,人脸识别这个问题,就是给定两个人脸,然后判定他们是不是同一个人,这是它最原始的定义。它有很多应用场景,比如银行柜台、海关、手机解锁、酒店入住、网吧认证...

    小宋是呢
  • 腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍(1)

    腾讯 AI Lab 计算机视觉中心人脸&OCR; 团队专注于领域内国际前沿技术研究与应用,近期取得部分成果,这里和大家分享一下。

    周景超
  • 人脸识别(三)——源码放送

    人脸识别相关的基本原理和流程,以及各个步骤的介绍和代码前两篇都有介绍,其实可以通过前两篇自行整合出完整的人脸识别源码,并且适当修改可以实现MFC程...

    小小詹同学
  • 《最强大脑》第三场《核桃计划》比赛难点及技术解析

    用户1737318

扫码关注云+社区

领取腾讯云代金券