专栏首页京东技术ECCV 2018论文 | 如何让人工智能充分理解图像?JD AI探秘物体间的联系对图像描述的作用

ECCV 2018论文 | 如何让人工智能充分理解图像?JD AI探秘物体间的联系对图像描述的作用

来这里找志同道合的小伙伴!

导语

人类想生动准确地描绘图像内容,不仅需要敏感捕捉图像中物体,还要洞悉各物体间的联系。目前人工智能已经能够精准识别图像中物体,但探索物体间联系从而对图像进行完整阐述一直是业界的难点。日前京东AI研究院计算机视觉与多媒体实验室在计算机视觉领域顶级会议ECCV 2018上入选的一篇文章,介绍了京东AI研究院在图像描述课题上取得的算法创新与突破,引起业界广泛关注。

京东AI研究院此次研究的核心内容是让计算机像人一样看图说话,使计算机不仅能够深层次理解图像内容,还可以精准、生动地进行图像描述。这一课题涵盖了计算机视觉(图像内容理解)和自然语言处理(描述语句生成)两大领域,是人工智能技术多模态融合的一个典型案例。

这一课题中,京东AI研究院计算机视觉与多媒体实验室开创性地设计了一套基于图卷积网络(Graph Convolutional Networks)和长短时记忆网络(Long Short-Term Memory)的编码器-解码器系统,通过这套系统,计算机能够将图像中物体的语义关系和空间关系融入到图像描述的生成过程中。该系统(简称为GCN-LSTM)在图像描述基准数据集COCO上验证了物体间联系对图像描述的促进作用,并获得了目前业界最好的效果。

>>>> 模型概述

具体而言,编码器-解码器图像描述系统可分为三部分:(1)物体检测模块;(2)基于图卷积网络的图像编码器模块;(3)基于长短时记忆网络的解码器模块。对于输入的图像,物体检测模块首先检测图像中包含的物体,并获得每个物体对应的区域级别的特征。然后,针对检测出来的多个物体,我们会构建出物体间的语义关系图和空间关系图(具体构建方法见后)。接着在基于图卷积网络的图像编码器模块中,图卷积网络会分别作用于物体间的语义关系图和空间关系图上,将两两物体间的语义关系和空间关系融入到对应物体的区域级别的特征,实现对物体区域级别特征的进一步编码。在获得了来自于语义关系图或者空间关系图上蕴含有物体间关系的区域级别特征后,我们将这一组编码后的物体区域级别特征输入基于长短时记忆网络的解码器模块,主要利用两层的长短时记忆网络来将输入的图像区域级别特征解码为对应的文本描述。

>>>> 物体间语义关系图的构建

对于物体间语义关系图,我们主要利用了如下的语义关系分类模型来实现两两物体间语义关系的判断。其输入为两个物体和它们共同覆盖区域特征的联结,以此为基础判断这两个物体间是否具有语义关系以及具有哪种语义关系。最后再对所有具有语义关系的物体间连接一条有向边,完成最终物体间语义关系图的构建。

>>>> 物体间空间关系图的构建

对于物体间空间关系图,我们直接依照两两物体间的空间相对位置关系,划分出了如下十一种不同的空间关系,这其中不仅具有包含与被包含,互相重叠的空间关系,还对八种不同的空间相对角度关系进行了细致的划分。最终的空间关系图则依据这十一种空间关系进行构建。

>>>> 测试结果

实验中我们首先在COCO数据集的标准测试集上进行定量的测试。相比于之前世界领先的Up-Down [2]模型,在图像描述的过程中引入物体间的语义和空间关系可将CIDEr-D的指标从120.1%提升至128.7%。另外,我们在下图中也展示了不同方法生成图像描述的结果示例。其中GT代表人们真实描述的语句,LSTM是基本的仅仅基于长短时记忆网络的方法。可以发现LSTM、Up-Down以及我们的GCN-LSTM这三种方法都能生成语法连贯和图像也大体一致的描述语句。但是我们的GCN-LSTM因为额外融入了物体间语义和空间关系,所以生成的语句更为丰富和图像的内容也更为契合。例如第一幅图中因为在我们的语义关系图中准确捕捉到了Kids和Dessert这两个物体间eating的语义关系,所以利用我们所提出的GCN-LSTM可以在生成的描述语句中强调这一语义关系,最终实现更为准确的图像描述。

该项图像描述技术展示了京东AI研究院视觉与多媒体实验室对图像内容更高层语义的理解能力。它不仅可以应用于剖析图像中所包含的丰富的语义信息,赋予图像更有意义的标签,还可以从用户图像出发,生成同图像表述内容一致的散文或诗。

在未来,京东AI研究院还将会使这项技术同京东金融、物流、电商全价值链场景结合,进行商品宣传图自动生成标题、广告语等业务场景方面的探索。据悉,ECCV(全称European Conference on Computer Vision)即将于2018年9月在德国慕尼黑盛大召开,它与CVPR、ICCV被并称为计算机视觉领域的三大国际顶级会议。京东AI研究院计算机视觉与多媒体实验室在本次ECCV大会中表现亮眼,包含在图像描述领域的突破,共有三篇论文被收录。相信未来,京东AI研究院计算机视觉与多媒体实验室将继续探索,在计算机挖掘并理解图像视频等多媒体素材中的视觉表达和语义信息领域取得更多的进展和突破。

>>>> 参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[2] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

本文分享自微信公众号 - 京东技术(jingdongjishu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深度揭秘京东全景主图背后的技术

    京东技术
  • 服务器端的图像处理 | 请召唤ImageMagick助你解忧

    在客户端我们可以用 PhotoShop 等 GUI 工具处理静态图片或者动态 GIF 图片,不过在服务器端对于 WEB 应用程序要处理图片格式转换,缩放裁剪,翻...

    京东技术
  • 塞伯坦 | 提高业务研发效率的工程化解决方案

    http://cyb.hestudy.com/,面向前端模块化工程的构建工具。主要目的是帮助开发者统一前端开发模式和项目开发结构,提高功能扩展和降低维护成本,自...

    京东技术
  • VR下双手与物体的交互

    逍遥剑客
  • PingCAP创始人刘奇:TiDB设计理念进化与大规模实践

    到现在为止TiDB已经开源有三年零两个月,我是TiDB CEO,打杂比较多,偶尔写写代码。

    数据和云
  • 多线程之传统多线程

    Contents 传统线程技术 传统创建线程方式 传统定时器技术 互斥 同步 传统线程技术 传统创建线程方式 1.继承Thread类,覆盖run方法 ...

    xiangzhihong
  • MIT发明10美元AI触觉手套:既能识别物体,又能称重,论文已上Nature

    MIT 研究人员开发了一种低成本的针织手套(仅需 10 美元)——「可伸缩触觉手套」(STAG,scalable tactile glove)。该手套配有 54...

    机器之心
  • 服务器常用端口

    web 的端口 80 FTP的端口是 21 SSH (Secure Shell)服务使用tcp 22 端口 TELNET 23 端口 DHCP server...

    wangxl
  • linux和docker的capabilities介绍

    在linux 2.2版本之前,当内核对进程进行权限验证的时候,可以将进程划分为两类:privileged(UID=0)和unprivilege(UID!=0)。...

    charlieroro
  • 强大的卷积网络是如何运行?

    首先,卷积网络认知图像的方式不同于人类。因此,在图像被卷积网络采集、处理时,需要以不同方式思考其含义。 卷积网络将图像视为体,也即三维物体,而非仅用宽度和高度测...

    机器人网

扫码关注云+社区

领取腾讯云代金券