深度学习新方向:Multimodal CNN实现图像文本匹配

在近日的国际计算机视觉大会(ICCV 2015)上,华为诺亚方舟实验室报告的基于深度学习的多模态匹配模型在图像与自然语句的双向检索的任务上,提出了深度学习研究及应用的一个新方向。

图像与文本的理解一直是人工智能中最为重要的研究方向之一。近年来,随着深度学习的广泛应用,图像与文本理解,譬如图像识别,文本分类等,已经取得了长足的进步。随着互联网的发达,愈来愈多的图像与文本等多模态的信息伴随彼此而共同出现。比如,新闻报道里的图片与标题,微博上的信息与照片,微信朋友圈的标题与照片等。如何从这共生的图像与文本的信息里来学习以及挖掘它们之间的匹配关系,进而完成图像与文本的检索,图像的标题生成,图像问答等任务,已经成为一个非常重要的研究方向。最近两年内各个研究公司,包括Google、微软,百度,以及知名高校,譬如斯坦福大学(Stanford University)、多伦多大学(University of Toronto),卡耐基梅隆大学(CMU),以及加州大学洛杉矶分校(UCLA)在内的多个研究机构都在不断地推进这项研究。

图像与文本的匹配关系的学习以及挖掘是一个非常困难的研究课题。首先,图像跟文本在语义层面上具有非常不同的表现形式。相对于图像的具体表现形式,文本信息代表了人的语言,包含有更高的语义信息。因此,图像与文本之间的匹配关系就非常的复杂。其次图像跟文本之间的匹配关系的学习,不仅仅需要很好的理解图像跟文本,更要学习以及挖掘他们之间的交互关系等。

诺亚方舟实验室提出的学习图像与文本匹配关系的Multimodal CNN模型

诺亚方舟实验室致力于图像与自然语言相结合的多模态的匹配学习,并以图像与自然语句的双向检索作为其核心任务之一。与其他公司或者高校譬如Google、微软,百度,斯坦福大学、和多伦多大学等的策略不同,诺亚方舟实验室在业界首先构建了一个多模态的卷积神经网络(Multimodal CNN)。卷积神经网络(CNN)在计算机视觉特别是图像的识别方面已经取得了令人瞩目的成功。但是CNN用于多模态的匹配问题还是比较前沿的尝试。华为诺亚方舟实验室构建的Multimodal CNN模型包含一个图像CNN用于描述图像信息,一个匹配(matching)CNN一方面完成文本信息中的单词的语义构建,更为重要的是学习图像与文本之间的匹配关系。另外Multimodal CNN模型挖掘以及学习了图像与文本在单词级别,短语级别,以及句子级别的匹配关系,进而完全的描述了图像与文本的复杂的匹配关系。诺亚方舟实验室研究员介绍,其研究的Multimodal CNN模型在图像与文本的双向搜索的任务上,超过了其他公司以及高校,达到了业界的领先水平。

随着互联网上图像与文本信息增多,针对图像与文本的多模态研究会吸引更多的企业以及高校的研究人员。诺亚方舟实验室研究员表示,将也会持续关注以及研究这个新兴的方向。

效果演示:http://mcnn.noahlab.com.hk/project.html

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-12-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立

长期以来,词向量一直是自然语言处理的核心表征技术。然而,其统治地位正在被一系列令人振奋的新挑战所动摇,如:ELMo、ULMFiT 及 OpenAI transf...

2333
来自专栏AI研习社

CNN 是如何处理图像中不同位置的对象的?

AI 研习社按:这篇博客来自 Jetpac(现被谷歌收购) CTO、苹果毕业生、TensorFlow 团队成员 Pete Warden。文中讨论了当要识别的对象...

901
来自专栏AI科技评论

学界 | 模型可解释性差?你考虑了各种不确定性了吗?

雷锋网 AI 科技评论按:本文作者是来自 Taboola 的数据科学家 Inbar Naor,她的研究领域是探索深度学习在推荐系统中的应用,在本文作者介绍了数据...

931
来自专栏新智元

【资源】深度学习论文阅读路线图,从经典到前沿尽览

【新智元导读】 从深度学习的历史和基础,到深度学习基本概念,再到模型和应用,可能是最全的深度学习论文汇总。 如果你是深度学习领域的一名新手,可能会遇到的第一个问...

3925
来自专栏SIGAI学习与实践平台

怎样成为一名优秀的算法工程师

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

2404
来自专栏智能计算时代

当机器学习遇到计算机视觉——上篇

image.png image.png 计算机视觉在上一个世纪60年代脱胎于人工智能与认知神经科学,旨在通过设计算法来让计算机自动理解图像的内容。为“解决”计算...

3245
来自专栏AI科技大本营的专栏

技术 | 动图详解:Google翻译背后的机器学习算法与神经网络模型

Google翻译、百度翻译、有道翻译……我们使用过各种各样的在线翻译服务,但你清楚机器翻译背后的原理吗?在线翻译为什么要用深度学习?不同的神经网络模型在翻译过程...

3685
来自专栏大数据文摘

深度学习论文阅读路线图

2173
来自专栏AI科技评论

干货 | CNN 是如何处理图像中不同位置的对象的?

AI 科技评论按:这篇博客来自 Jetpac(现被谷歌收购) CTO、苹果毕业生、TensorFlow 团队成员 Pete Warden。文中讨论了当要识别的对...

1652
来自专栏大数据文摘

一页纸说清楚“深度学习”

2677

扫码关注云+社区

领取腾讯云代金券