Image Captioning 36页最新综述, 161篇参考文献

【导读】近日澳大利亚莫道克大学的研究人员在arxiv上发表基于深度学习的image cationing (图像描述生成)最新综述论文,详细阐述了当前图像描述生成的最新成就和关键技术。文章最后总结了未来几个比较有前景的方向,对从事这个领域的人非常有借鉴作用。

Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

当前,理解图像很大程度上取决于获取图像特征。用于此目的的技术可大致分为两类:(1)基于传统的机器学习的技术(2)基于深度机器学习的技术

近5年来,大量关于深度学习图像描述生成的文章被广泛使用。深度学习算法能够很好地处理图像描述生成的复杂性和一系列挑战。到目前为止,只有三篇关于这个方向的综述论文(8,13,75,见论文)发表。虽然这些论文对图像描述生成进行了很好的文献综述,但由于大部分论文只覆盖少量关于深度学习的论文。这些综述论文主要讨论了基于模板、基于检索、基于深度学习的图像描述生成模型。然而,在基于深度学习的图像描述生成方面,研究者们已经做了大量的工作,并且还有好多新数据集的使用,当前暂时还没有一个全面的图像描述生成的综述。

这篇综述论文的主要目的是为基于深度学习的图像描述生成提供一个全面的综述。首先,将现有的图像描述生成的文章分为三大类:(1)基于模板的图像描述生成方法(Template-based Image captioning)(2)基于检索的图像描述生成(Retrieval-based image captioning),(3)新颖的图像描述生成方法(Novel image caption generation)。

这些类别将在文章中第2节中进行简要讨论。大多数基于深度学习的图像描述生成方法都属于第三类别。这篇综述只关注基于深度学习的图像描述的生成。

其次, 论文将基于深度学习的图像描述生成方法分为不同的类别,即1)基于视觉空间,(2)基于多模态,(3)监督学习,(4)其他深度学习,(5) Dense captioning, (6)基于整个场景, (7)基于Encoder-Decoder体系结构, (8)基于组合体系结构, (9)基于LSTM(长短期记忆的语言模型, (10)基于其他语言模型, (11)基于注意力,(12)基于语义概念,(13)Stylized captions等等。

论文在第3节中讨论上述所有的类别,在第4节中提供了数据集的概述和用于评测图像描述生成的常用评估指标,还在第5节中讨论并比较了不同方法的结果。最后,我们在第6节简要讨论了未来的研究方向,并在第7节进行了总结。

计算机视觉已经发展了五十多年。在此期间,视觉理解(visual understanding)这一领域取得了长足的进展。为了让机器像人类一样能够“看”懂周围的世界,计算机视觉研究人员设计了大量的人工特征去描述一件物体,并且提出了各种模型去识别这些人为设计的特征。几年前,当我们谈论图像或视频理解时,我们能做的只是给一幅图像或一段视频自动打上一些彼此相互独立的标签(tag)。而今天,我们已经可以借用深度学习的发展将视觉理解这一基础任务再往前推进一步,即将单个的标签变成一段和当前视觉内容相关并且通顺连贯的自然语言描述。

视觉和语言(Vision and Language)其实是一个交叉领域。想要建立视觉和自然语言的桥梁,不仅需要理解视觉,也要知道如何对自然语言进行建模。同时,这个桥梁也可以是双向的,既可以从视觉生成文字(如caption、sentiment、visual question answering等),也可以从文字到视觉(如generation、search)

Image Captioning的基本思路来源于语言翻译,其流程大体是先使用 CNN 对图片进行编码得到视觉特征表示,然后使用 RNN 对这个特征进行解码来生成图像描述。在提取视觉特征时,可以使用高级语义特征和注意力机制等计算机视觉领域常用的方法,也可以直接使用自动编码器进行处理。

参考文献:

https://www.msra.cn/zh-cn/news/features/vision-and-language-20170713

题目: A Comprehensive Survey of Deep Learning for Image Captioning

作者:Md. Zakir Hossain, Ferdous Sohel, Mohd Fairuz Shiratuddin, Hamid Laga

【摘要】生成一个图像的描述称为图像描述生成。图像描述生成需要识别图像中的重要目标、他们的属性和关系。它还需要生成语法和语义上正确的句子。基于深度学习的技术能够处理图像描述生成这一任务的复杂性和各种挑战。在这篇综述论文中,我们旨在对现有的基于深度学习的图像描述生成技术进行全面的综述。我们讨论分析了它们的性能、优点和技术的局限性。我们还讨论了在基于深度学习的图像描述生成处理中常用的数据集和评价指标。

参考链接:

https://arxiv.org/abs/1810.04020

-END-

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

AI 研习社按:深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一团乌云,现代CNN网络固然有强大的特征抽取能力,但没有完善的理论可以描述...

3965
来自专栏新智元

吴恩达计算机视觉课程12大要点,如何赢得计算机视觉竞赛

来源:towardsdatascience.com 编译:马文 【新智元导读】本文作者最近在Coursera上完成了吴恩达的深度学习系列课程的第四门课“卷积神经...

37013
来自专栏机器之心

戳穿泡沫:对「信息瓶颈」理论的批判性分析

4368
来自专栏AI科技评论

深度 | 谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

AI 科技评论按:深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一团乌云,现代CNN网络固然有强大的特征抽取能力,但没有完善的理论可以描...

3718
来自专栏数据科学与人工智能

【算法】机器学习算法的优点和缺点

从Logistic回归开始,然后尝试Tree Ensembles和/或Neural Networks。 奥卡姆的剃刀原理:使用最简单的算法,可以满足您的需求,并...

2300
来自专栏AI派

机器学习中你不可不知的几个算法常识

读完 机器学习基础 之后,你已经知道了到底什么是机器学习以及机器学习的学习任务。在这篇给大家介绍一些机器学习中必须要了解的几个算法常识,这些算法常识在之后从事机...

1514
来自专栏AI科技评论

学界 | 如何有效预测未来的多种可能?LeCun的误差编码网络给你带来答案

AI 科技评论按:许多自然问题都有一定的不确定性,比如一个杯子从桌上掉地,它可能躺在桌角、立在凳子下面,甚至直接摔碎。这种具有多种可能结果的未来预测一直是一个难...

3378
来自专栏智能算法

深度学习三人行(第8期)----卷积神经网络通俗原理

接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步。本期主要内容如下:

1002
来自专栏程序你好

关于神经网络技术演化史

神经网络和深度学习技术是当今大多数高级智能应用的基础。在本文中,来自阿里巴巴搜索部门的高级算法专家孙飞博士将简要介绍神经网络的发展,并讨论该领域的最新方法。

1204
来自专栏AlgorithmDog的专栏

强化学习系列之六:策略梯度

文章目录 [隐藏] 1. 策略参数化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic 3. 为什么要有策略梯...

4135

扫码关注云+社区

领取腾讯云代金券