机器视觉问答开源项目介绍

keras中文doc之三 结尾给出了一个非常简单的vqa视觉问答的程序demo,我们今天看一个复杂的tensorflow版本的VQA。

https://github.com/JamesChuanggg/VQA-tensorflow

Tensorflow Implementation of Deeper LSTM+ normalized CNN for Visual Question Answering

此tensorflow版本的VQA精度达到原torch程序版本:

This current code can get 58.16 on Open-Ended and 63.09 on Multiple-Choice on test-standard split.

效果:

但是代码只有400多行,喜欢的朋友可以看起来。

相对于此版本的VQA,改进版本的VQA增加了注意力及层级关系

https://github.com/jiasenlu/HieCoAttenVQA

Hierarchical Question-Image Co-Attention for Visual Question Answering

注意力效果如图:

注意力在视频中的应用可以参考:

https://github.com/tsenghungchen/SA-tensorflow

阅读原文看完整代码。

原文发布于微信公众号 - CreateAMind(createamind)

原文发表时间:2016-09-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏梦里茶室

Google机器学习教程心得(二)决策树与可视化

Visualizing a Decision Tree Google Machine Learning Recipes 2 官方中文博客 http://ch...

22190
来自专栏人工智能LeadAI

pytorch入门教程 | 第四章:准备图片数据集

在训练神经网络之前,我们必须有数据,作为资深伸手党,必须知道以下几个数据提供源: 1 CIFAR-10 ? CIFAR-10图片样本截图 CIFAR-10是多...

1K80
来自专栏AI研习社

手写体数字识别该如何选择GPU并实现?DeepLearning4j 实战

在之前的博客中已经用单机、Spark分布式两种训练的方式对深度神经网络进行训练,但其实DeepLearning4j也是支持多GPU训练的。 这篇文章我就总结下用...

34830
来自专栏wOw的Android小站

[Tensorflow] Faster R-CNN 和自定义 VOC 数据集

看了pascal_voc.py代码,可以把代码的jpg拼接改成png,这样可以不做上一步.

1.8K20
来自专栏WOLFRAM

by:Mr . zeng

17630
来自专栏CNN

从Tensorflow模型文件中解析并显示网络结构图(CKPT模型篇)

本文介绍如何从CKPT模型文件中提取网络结构图并实现可视化。

1.8K30
来自专栏一棹烟波

CUDA与OpenGL互操作

当处理较大数据量的时候,往往会用GPU进行运算,比如OpenGL或者CUDA。在实际的操作中,往往CUDA实现并行计算会比OpenGL更加方便,而OpenGL在...

306100
来自专栏点滴积累

使用 opencv 将图片压缩到指定文件尺寸

前言 图片压缩应用很广泛,如生成缩略图等。前期我在进行图片处理的过程中碰到了一个问题,就是如何将图片压缩到指定尺寸,此处尺寸指的是生成图片文件的大小。 我使用 ...

97880
来自专栏机器学习算法与Python学习

不会用Photoshop抠图?Mask R-CNN助你一键“除”人

20130
来自专栏深度学习入门与实践

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了。   第10-1...

309100

扫码关注云+社区

领取腾讯云代金券