专栏 | 阿里 AI LAB ICCV 2017 录用论文详解:语言卷积神经网络应用于图像标题生成的经验学习

机器之心专栏

阿里 AI LAB

ICCV,被誉为计算机视觉领域三大顶级会议之一的、作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平。阿里巴巴在 ICCV 2017 上有多篇论文入选。本文是阿里 AI LAB 首席科学家王刚与南洋理工大学团队合作的 ICCV 2017 论文《语言卷积神经网络应用于图像标题生成的经验学习》《An Empirical Study of Language CNN for Image Captioning》解读。

论文简介:我们提出了基于卷积网络 CNN 的语言模型,该 CNN 的输入为之前时刻的所有单词,进而可以抓住对生成描述很重要的历史信息,用于指导当前时刻单词的生成。目前,语音建模大多采用 LSTM,虽然通过引入「门机制」获得长距离依存性建模的能力。但是 LSTM 通过逐个单词递推的方式来对语音建模,无论序列长度如何,信息均通过固定长度的向量传递。在输入很长序列,这种逐个递推的方式型很难去学到合理的表达。因此,我们提出的模型贡献在于通过 CNN 对历史单词进行建模,并结合简单递归模型,解决了长文本层次结构和依存性建模的问题。MS COCO 和 Flickr 30K 上,该模型性能显著地超过了 LSTM 和 GRU,均取得了 state-of-the-art 效果。

图像描述的发展

图像描述自动生成是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。经过持续数十年计算机视觉、图像识别、自然语言处理和机器学习等领域的发展, 让我们有可能利用神经网络完成突破性的工作。

例如, 近年来,ImageNet 的兴起, 以及大规模图像描述数据库的出现 (MS COCO, AI Challenger 中文图像), 让研究者们有机会完成更多有实际价值的应用。举个离实际应用比较近的例子, 通过摄像头获取图像或视频,结合图像描述以 (Image-to-Text) 及语音生成技术 (Text-to-Speech),视障人士可以获得对眼前事物的准确描述。此外,还可能自动对数以千万的未标注图像生成描述以便分类检索。

基于 encoder-decoder 结构的图像描述存在不足

目前,主流的图像描述模型都是基于 encoder-decoder 结构。其中,encoder 为卷积神经网络,同于图像特征抽取。decoder 一般为递归神经网络,用于语言模型建模。递归神经网络虽然相对传统方法效果显著。但是,所有递推网络都避免不了一个潜在的问题,那就是当输入序列很长时,历史信息不可避免的会损失。也就是说,虽然门机制一定程度上解决了梯度消失的问题。但是,也带来了缺点。尤其输入序列很长时,由于门机制的存在,递归神经网络难以保留全部的必要信息。

基于卷积网络 CNN 的语言模型 超越目前所有方法

我们提出的基于卷积网络 CNN 的语言模型则解决了传统 encode-decode 结构在编解码时都依赖于内部一个固定长度向量的限制。该模型主要由四部分组成:用于图像特征提取的 CNN_I,用于自然语言建模的 CNN_L,融合视觉和文本特征的的多模态层 M,以及单词预测的递归网络。

描述生成过程过程如下:首先利用 CNN 提取图像特征,然后 CNN_L 对历史预测的所有单词进行建模,并得到整体表达。然后,通过多模态层对图像和语音信息进行融合,并将融合的信息输入递归网络预测下一个单词。

和传统递归神经网络相比,我们的建立了一个输入句子的层级表征,这样可以更好地提取长距离的依存性(long-term dependencies)。这种层次理解的思路和和语言学中语法形式体系中的树结构分析很像。总的来说,我们的模型利用了 language CNN 天然的整体性理解能力,并结合递归网络的串行理解能力。既获得了长历史信息建模(long-term)的能力,有不丢失时序建模(Short-Term)网络来表达单词信息,进而能够很好的对历史信息建模,用于当前单词的预测。

从我们在 MS COCO 的对比分析看出, 我们的模型很明显的超过了所有的递推神经网络, 而且由于引入了 language CNN, 我们的网络比 LSTM 网络更容易训练, 在 Flick30K 上, 我们超越了目前所有的方法。

论文下载链接:

http://openaccess.thecvf.com/content_iccv_2017/html/Gu_An_Empirical_Study_ICCV_2017_paper.html

本文为机器之心专栏,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【机器学习】目前机器学习最热门的领域有哪些?

目前机器学习最热门的领域有以下七个: 1.迁移学习Transferlearning 简介:一种学习对另一种学习的影响,它广泛地存在于知识、技能、态度和行为规范的...

3639
来自专栏人工智能

AI的元学习之路

人类的智能的一个关键点在于能力多样性 —— 我们能胜任各种各样的任务。而目前的AI系统则擅长掌握单一技能,例如围棋,Jeopardy(美国的一档电视智力竞赛节目...

4008
来自专栏CVer

[计算机视觉论文速递] 2018-06-29 人脸专场

这篇文章有4篇论文速递,都是人脸方向,包括人脸识别、人脸表情识别、人脸情绪分类和人脸属性预测。其中一篇是CVPR 2018 workshop。

2794
来自专栏目标检测和深度学习

腾讯数平精准推荐 | OCR技术之检测篇

在过去的数年中,腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。特别是在广告推荐领域,团队自...

5614
来自专栏计算机视觉战队

CVPR | 经典再现,全内容跟踪

今天给大家带来的是CVPR会议上一些经典网络的再现,希望可以给感兴趣的朋友带来一些帮助,也可以给大家带来一些经典的回顾,知识的巩固,谢谢! ---- R-CN...

3144
来自专栏人工智能头条

深度学习,维度灾难 和 Autoencoders

2773
来自专栏AI科技评论

优必选悉尼AI研究院博士生:混合比例估计在弱监督学习和迁移学习中的延伸与应用

AI 科技评论按:在大数据时代,标注足够多的训练样本往往耗费巨大。弱监督学习方法往往能够减轻对正确标签的过度依赖,达到与监督学习相近的性能。然而,在设计弱监督学...

1192
来自专栏AI派

矩阵分解之SVD和SVD++

上述两个问题,在矩阵分解中可以得到解决。原始的矩阵分解只适用于评分预测问题,这里所讨论的也只是针对于评分预测问题。

7823
来自专栏大数据挖掘DT机器学习

用Python进行机器学习小案例

概要 本文是用Python编程语言来进行机器学习小实验的第一篇。主要内容如下: 读入数据并清洗数据 探索理解输入数据的特点 分析如何为学习算法呈现数据 选择正确...

4159
来自专栏机器之心

业界 | Petuum提出对偶运动生成对抗网络:可合成逼真的视频未来帧和流

2916

扫码关注云+社区

领取腾讯云代金券