深度学习图像标注

图像标注(Image Captioning)是产生图像文字描述的过程。使用了自然语言处理和计算机视觉去产生描述。

图像标注

数据的形式图像(Imnage)->标注(captions)。

网络拓扑

编码器(Encoder)

卷积神经网络(CNN)可以用来作为编码器。将输入图像交给CNN去抽取特征。把最后一层隐藏层连接到解码器。

解码器(Decoder)

解码器是循环神经网络(RNN),它可以进行单词级别的语言建模。第一步接收编码器的输出和<START>向量。

训练

从CNN(编码器)最后一层隐层的输出传给解码器是第一步。我们令向量x_1=<START> 和期望标签y_1=序列中的第一个词 。类似的,x_2=第一个词的词向量 ,希望网络预测第二个词。最终,在最后一步,x_T=<END> ,目标标签y_T=<END>

在训练期间,每一步都把正确的输入给与解码器,即使解码器在之前产生了错误。

测试

图片表征(image representation)是解码器的输入。令向量x_1=<START> 并计算第一个词y_1的分布。我们从分布选出一个词,令它的嵌合向量为x_2,重复这个过程直到<END> 被产生。

在测试过程中,时间t解码器的输出被反馈且成为解码器t+1时刻的输入。

数据集

超过12万张图片和图片的描述

Flickr 8K

Flickr 30K

图像标注数据集2016

原文链接:https://towardsdatascience.com/image-captioning-in-deep-learning-9cd23fb4d8d2

原文作者:Pranoy Radhakrishnan

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

机器学习实战之决策树

一、简介 决策树是一类常见的机器学习方法,以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新数据进行分类,比如通过一组数据通过模型训练得到以下的决策...

220100
来自专栏WD学习记录

机器学习 学习笔记(10)序列最小最优化算法

序列最小最优化算法(Sequential minimal optimization)

17120
来自专栏AIUAI

Tensorflow - Cross Entropy Loss

1.1K60
来自专栏PPV课数据科学社区

这是一份文科生都能看懂的线性代数简介

选自Medium 作者:Niklas Donges 机器之心编译 参与:Tianci LIU、思源 线性代数的概念对于理解机器学习背后的原理非常重要,尤其是在深...

350100
来自专栏深度学习与数据挖掘实战

干货|深度学习面试问答集锦

No.19 CNN中,conv layer、ReLu layer、Pooling layer、Fully connected layer的区别?

13240
来自专栏大数据挖掘DT机器学习

机器学习模型的特性

机器学习模型中有许多种不同方法可以用来解决分类和回归问题。对同一个问题来说,这些不同模型都可以被当成解决问题的黑箱来看待。然而,每种模型都源自于不同的...

355110
来自专栏游戏开发那些事

【Unity3d游戏开发】Unity3D中的3D数学基础---向量

向量是2D、3D数学研究的标准工具,在3D游戏中向量是基础。因此掌握好向量的一些基本概念以及属性和常用运算方法就显得尤为重要。在本篇博客中,马三就来和大家一起回...

14310
来自专栏顶级程序员

从熵概念到决策树算法

信息熵是将熵的理论应用于信息混乱度的描述,在随机变量中可以描述随机变量不确定性的程度,在机器学习的样本集合中,可以用于描述样本集合的纯度。

15830
来自专栏算法channel

机器学习决策树:提炼出分类器算法

? 前面三天推送了决策树的基本原理和选择最佳分裂特征的几种公式,用到决策树一般都会出现过拟合问题,因此需要对决策树进行剪枝,阐述了常用的几种剪枝的方法(这些方...

35580
来自专栏mantou大数据

[机器学习实战]K-近邻算法

1. K-近邻算法概述(k-Nearest Neighbor,KNN) K-近邻算法采用测量不同的特征值之间的距离方法进行分类。该方法的思路是:如果一个样本在特...

47050

扫码关注云+社区

领取腾讯云代金券