ECCV 2018论文 | 如何让人工智能充分理解图像?JD AI探秘物体间的联系对图像描述的作用

来这里找志同道合的小伙伴!

导语

人类想生动准确地描绘图像内容,不仅需要敏感捕捉图像中物体,还要洞悉各物体间的联系。目前人工智能已经能够精准识别图像中物体,但探索物体间联系从而对图像进行完整阐述一直是业界的难点。日前京东AI研究院计算机视觉与多媒体实验室在计算机视觉领域顶级会议ECCV 2018上入选的一篇文章,介绍了京东AI研究院在图像描述课题上取得的算法创新与突破,引起业界广泛关注。

京东AI研究院此次研究的核心内容是让计算机像人一样看图说话,使计算机不仅能够深层次理解图像内容,还可以精准、生动地进行图像描述。这一课题涵盖了计算机视觉(图像内容理解)和自然语言处理(描述语句生成)两大领域,是人工智能技术多模态融合的一个典型案例。

这一课题中,京东AI研究院计算机视觉与多媒体实验室开创性地设计了一套基于图卷积网络(Graph Convolutional Networks)和长短时记忆网络(Long Short-Term Memory)的编码器-解码器系统,通过这套系统,计算机能够将图像中物体的语义关系和空间关系融入到图像描述的生成过程中。该系统(简称为GCN-LSTM)在图像描述基准数据集COCO上验证了物体间联系对图像描述的促进作用,并获得了目前业界最好的效果。

>>>> 模型概述

具体而言,编码器-解码器图像描述系统可分为三部分:(1)物体检测模块;(2)基于图卷积网络的图像编码器模块;(3)基于长短时记忆网络的解码器模块。对于输入的图像,物体检测模块首先检测图像中包含的物体,并获得每个物体对应的区域级别的特征。然后,针对检测出来的多个物体,我们会构建出物体间的语义关系图和空间关系图(具体构建方法见后)。接着在基于图卷积网络的图像编码器模块中,图卷积网络会分别作用于物体间的语义关系图和空间关系图上,将两两物体间的语义关系和空间关系融入到对应物体的区域级别的特征,实现对物体区域级别特征的进一步编码。在获得了来自于语义关系图或者空间关系图上蕴含有物体间关系的区域级别特征后,我们将这一组编码后的物体区域级别特征输入基于长短时记忆网络的解码器模块,主要利用两层的长短时记忆网络来将输入的图像区域级别特征解码为对应的文本描述。

>>>> 物体间语义关系图的构建

对于物体间语义关系图,我们主要利用了如下的语义关系分类模型来实现两两物体间语义关系的判断。其输入为两个物体和它们共同覆盖区域特征的联结,以此为基础判断这两个物体间是否具有语义关系以及具有哪种语义关系。最后再对所有具有语义关系的物体间连接一条有向边,完成最终物体间语义关系图的构建。

>>>> 物体间空间关系图的构建

对于物体间空间关系图,我们直接依照两两物体间的空间相对位置关系,划分出了如下十一种不同的空间关系,这其中不仅具有包含与被包含,互相重叠的空间关系,还对八种不同的空间相对角度关系进行了细致的划分。最终的空间关系图则依据这十一种空间关系进行构建。

>>>> 测试结果

实验中我们首先在COCO数据集的标准测试集上进行定量的测试。相比于之前世界领先的Up-Down [2]模型,在图像描述的过程中引入物体间的语义和空间关系可将CIDEr-D的指标从120.1%提升至128.7%。另外,我们在下图中也展示了不同方法生成图像描述的结果示例。其中GT代表人们真实描述的语句,LSTM是基本的仅仅基于长短时记忆网络的方法。可以发现LSTM、Up-Down以及我们的GCN-LSTM这三种方法都能生成语法连贯和图像也大体一致的描述语句。但是我们的GCN-LSTM因为额外融入了物体间语义和空间关系,所以生成的语句更为丰富和图像的内容也更为契合。例如第一幅图中因为在我们的语义关系图中准确捕捉到了Kids和Dessert这两个物体间eating的语义关系,所以利用我们所提出的GCN-LSTM可以在生成的描述语句中强调这一语义关系,最终实现更为准确的图像描述。

该项图像描述技术展示了京东AI研究院视觉与多媒体实验室对图像内容更高层语义的理解能力。它不仅可以应用于剖析图像中所包含的丰富的语义信息,赋予图像更有意义的标签,还可以从用户图像出发,生成同图像表述内容一致的散文或诗。

在未来,京东AI研究院还将会使这项技术同京东金融、物流、电商全价值链场景结合,进行商品宣传图自动生成标题、广告语等业务场景方面的探索。据悉,ECCV(全称European Conference on Computer Vision)即将于2018年9月在德国慕尼黑盛大召开,它与CVPR、ICCV被并称为计算机视觉领域的三大国际顶级会议。京东AI研究院计算机视觉与多媒体实验室在本次ECCV大会中表现亮眼,包含在图像描述领域的突破,共有三篇论文被收录。相信未来,京东AI研究院计算机视觉与多媒体实验室将继续探索,在计算机挖掘并理解图像视频等多媒体素材中的视觉表达和语义信息领域取得更多的进展和突破。

>>>> 参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[2] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

原文发布于微信公众号 - 京东技术(jingdongjishu)

原文发表时间:2018-08-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】机器学习算法之旅

在理解了我们需要解决的机器学习问题之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,...

23710
来自专栏机器学习算法与Python学习

深度学习领域引用量最多的前20篇论文简介

1755
来自专栏有趣的Python

4- 深度学习之神经网络核心原理与算法-归一化与参数初始化

1723
来自专栏AI科技评论

大会 | 阿里巴巴ICLR论文解读:基于交替方向法的循环神经网络多比特量化

AI 科技评论按:4 月 30 日至 5 月 3 日,被学术界广泛认可为「深度学习的顶级会议」的 ICLR 2018 在加拿大温哥华举办。阿里巴巴与北大合作的一...

1482
来自专栏大数据挖掘DT机器学习

在现实实践中会遇到的机器学习算法总结

在理解了我们需要解决的机器学习问题之后,我们要思考需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,...

3526
来自专栏数据科学与人工智能

【机器学习】机器学习算法之旅

在理解了我们需要解决的机器学习问题之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,...

2399
来自专栏AI科技评论

干货 | 北航博士生黄雷:标准化技术在训练深度神经网络中的应用

AI 科技评论按:标准化技术目前已被广泛应用于各种深度神经网络的训练,如著名的批量标准化技术 (Batch Normalization, BN) 基本上是训练深...

1361
来自专栏IT派

集成算法的简单分享

为什么使用集成算法  简单算法一般复杂度低,速度快,易展示结果,但预测效果往往不是特别好。每种算法好像一种专家,集成就是把简单的算法(后文称基算法/基模型)组织...

3995
来自专栏大数据挖掘DT机器学习

在现实实践中会遇到的机器学习算法总结

在理解了我们需要解决的机器学习问题之后,我们要思考需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用...

2957
来自专栏大数据文摘

熬过深宫十几载,深度学习上位这五年

2164

扫码关注云+社区

领取腾讯云代金券