前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习新方向:Multimodal CNN实现图像文本匹配

深度学习新方向:Multimodal CNN实现图像文本匹配

作者头像
用户1737318
发布2018-06-06 11:18:14
1.2K0
发布2018-06-06 11:18:14
举报
文章被收录于专栏:人工智能头条人工智能头条

在近日的国际计算机视觉大会(ICCV 2015)上,华为诺亚方舟实验室报告的基于深度学习的多模态匹配模型在图像与自然语句的双向检索的任务上,提出了深度学习研究及应用的一个新方向。

图像与文本的理解一直是人工智能中最为重要的研究方向之一。近年来,随着深度学习的广泛应用,图像与文本理解,譬如图像识别,文本分类等,已经取得了长足的进步。随着互联网的发达,愈来愈多的图像与文本等多模态的信息伴随彼此而共同出现。比如,新闻报道里的图片与标题,微博上的信息与照片,微信朋友圈的标题与照片等。如何从这共生的图像与文本的信息里来学习以及挖掘它们之间的匹配关系,进而完成图像与文本的检索,图像的标题生成,图像问答等任务,已经成为一个非常重要的研究方向。最近两年内各个研究公司,包括Google、微软,百度,以及知名高校,譬如斯坦福大学(Stanford University)、多伦多大学(University of Toronto),卡耐基梅隆大学(CMU),以及加州大学洛杉矶分校(UCLA)在内的多个研究机构都在不断地推进这项研究。

图像与文本的匹配关系的学习以及挖掘是一个非常困难的研究课题。首先,图像跟文本在语义层面上具有非常不同的表现形式。相对于图像的具体表现形式,文本信息代表了人的语言,包含有更高的语义信息。因此,图像与文本之间的匹配关系就非常的复杂。其次图像跟文本之间的匹配关系的学习,不仅仅需要很好的理解图像跟文本,更要学习以及挖掘他们之间的交互关系等。

诺亚方舟实验室提出的学习图像与文本匹配关系的Multimodal CNN模型

诺亚方舟实验室致力于图像与自然语言相结合的多模态的匹配学习,并以图像与自然语句的双向检索作为其核心任务之一。与其他公司或者高校譬如Google、微软,百度,斯坦福大学、和多伦多大学等的策略不同,诺亚方舟实验室在业界首先构建了一个多模态的卷积神经网络(Multimodal CNN)。卷积神经网络(CNN)在计算机视觉特别是图像的识别方面已经取得了令人瞩目的成功。但是CNN用于多模态的匹配问题还是比较前沿的尝试。华为诺亚方舟实验室构建的Multimodal CNN模型包含一个图像CNN用于描述图像信息,一个匹配(matching)CNN一方面完成文本信息中的单词的语义构建,更为重要的是学习图像与文本之间的匹配关系。另外Multimodal CNN模型挖掘以及学习了图像与文本在单词级别,短语级别,以及句子级别的匹配关系,进而完全的描述了图像与文本的复杂的匹配关系。诺亚方舟实验室研究员介绍,其研究的Multimodal CNN模型在图像与文本的双向搜索的任务上,超过了其他公司以及高校,达到了业界的领先水平。

随着互联网上图像与文本信息增多,针对图像与文本的多模态研究会吸引更多的企业以及高校的研究人员。诺亚方舟实验室研究员表示,将也会持续关注以及研究这个新兴的方向。

效果演示:http://mcnn.noahlab.com.hk/project.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档