前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于tensorflow的视觉问答系统构建

基于tensorflow的视觉问答系统构建

作者头像
sparkexpert
发布2018-01-09 11:44:34
1.4K0
发布2018-01-09 11:44:34
举报

视觉问答(Visual Question Answering,VQA),是多模态数据挖掘的前沿应用之一,里面涉及计算机视觉和自然语言处理的学习任务。VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。

现有视觉问答的模型基本上都是基于LSTM来实现,其输入一部分是问答的词向量,一部分是图片的CNN特征。

因此常见的如采用VGG模型所产生的特征,而问答的词向量则采用常见的word2vec.

网上已经有很多相关的代码,因此首先找了一个比较经典的VQA来复现一下。主要参考:https://github.com/paarthneekhara/neural-vqa-tensorflow。主要是里面有预训练好的模型。

测试结果:

(1) 测试图片一:http://img1.lvyou114.com/TukuMax/46/200912214425.JPG。

结果为:

问题: Which animal is this?

相应的答案:giraffe排名前5的答案:giraffelionzebragoatbird

问题: how many giraffes in the picture?

相应的答案:2 排名前5的答案: 2 3 1 4 5

What is the color of the animal shown?

相应的答案:brown 排名前5的答案: brown white tan black gray

可以看出,对于动物的识别效果还可以,不过数量上就不行了,这也与VGG网络有关系,毕竟VGG网络没有实现物体目标检测。而颜色和类别识别还是可以的。

测试二:

问题:What are they doing?

相应的答案:surfing 排名前5的答案: surfing swimming parasailing water skiing flying kite

测试图片三:专门找个卡通的图片测试一下。

相应的答案:tennis 排名前5的答案: tennis baseball frisbee surfing skiing

从上述的动作识别来说,虽然比较接近,不过在排名第四,第五的动作却相距甚远,有可能是训练数据集本身就不包含这样的场景吧。

整个模型可能还少了些Attention机制,还只能处于实验阶段。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年06月26日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档