Facobook开源视觉问答VQA框架：Pythia

文章来源：企鹅号 - 计算机视觉与机器学习

VQA Challenge 2018的冠军方案。

(欢迎关注“我爱计算机视觉”，一个有价值有深度的公众号~)

什么是视觉问答VQA（Visual Question Answering）？

给定一幅图片及与图片相关的问题，系统通过理解图片回答这个问题，它涉及到图像识别和自然语言理解。

比如这些例子：

它是计算机视觉和自然语言处理问题的高级综合，好的VQA系统可以帮助盲人理解这个世界。

Pythia开源目的

Facebook AI Research的研究员们参加了VQA Challenge 2018，并获得了冠军，他们发现现今的很多VQA系统都有一些相同的功能模块，比如问题编码，图像特征提取，两者的融合（典型的使用attention模型），答案空间的分类等，他们将自己的获胜方案开源，期望它能成为VQA或相关方向比如视觉对话（visual dialog）领域易用和模块化的研究平台。

VQA Challenge 2018的Leaderboard：

Pythia（皮媞亚）是向Oracle of Apollo at Delphi的致敬，她在古希腊神话中传达旨意、回答问题。

Pythia架构与改进

Pythia主要参考了up-down模型[1],并在

Model Architecture、

Learning Schedule、

Fine-Tuning Bottom-Up Features、

Data Augmentation、

Post-Challenge Improvements、

Model Ensembling做了改进。

下表展示了加上各种改进后系统在VQA v2.0数据库上的测试精度。

在模型集成上，集成差异化更大的不同的模型，获得的改进更大。

项目主页：

https://github.com/facebookresearch/pythia

[1]P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.

发表于: 2018-07-282018-07-28 09:12:58
原文链接：https://kuaibao.qq.com/s/20180728G0CABQ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Facobook开源视觉问答VQA框架：Pythia

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐