专栏首页人工智能与演化计算成长与进阶[DeeplearningAI笔记]序列模型3.1基本的 Seq2Seq /image to Seq

[DeeplearningAI笔记]序列模型3.1基本的 Seq2Seq /image to Seq

3.1 基础模型

“[1] Sutskever I, Vinyals O, Le Q V. Sequence to Sequence Learning with Neural Networks[J]. 2014, 4:3104-3112. [2] Cho K, Van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J]. Computer Science, 2014.

seq2seq

  • 示例 对于法语句子: Jane visite l'Afrique en septembre 翻译成英语为 : Jane is visiting Africa in September
  • 对于输入句子使用
x^{<1>},x^{<2>},x^{<3>},x^{<4>},x^{<5>}

来表示输入句子的单词,使用

y^{<1>},y^{<2>},y^{<3>},y^{<4>},y^{<5>},y^{<6>}

来表示输出句子的单词。

  • 首先建立 编码网络 encoder network 它是一个 RNN 结构,RNN 的子结构可以是 GRU 或者 LSTM,每次向网络中输入一个单词,将输入序列接收完毕后,这个 RNN 会输出一个向量来代表这个输入序列。
  • 之后你可以建立一个 解码网络 decoder network 它以编码网络的输出作为输入。解码网络 可以被训练为每次输出一个翻译后的单词,一直到它输出序列的结尾或者句子结尾标记,解码网络工作结束。
  • 和介绍 RNN 时一样,解码网络 将前一个时间步的输出作为输入进行该时间步的预测。
  • 这个模型简单地使用一个编码网络对输入的法语句子进行编码,然后用一个解码网络来生成对应的英语翻译

“[1] Mao J, Xu W, Yang Y, et al. Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)[J]. Eprint Arxiv, 2015. [2] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015:3156-3164. [3] Karpathy A, Li F F. Deep visual-semantic alignments for generating image descriptions[C]// Computer Vision and Pattern Recognition. IEEE, 2015:3128-3137.

Image captioning 图片描述 image to Sequence model

  • 类似的结构也可以被用来做 图片描述(Image captioning) , 给出一张图片,他能自动地输出该图片的描述。

A cat sitting on a chair

  1. 首先,使用 CNN 学习图片的一系列特征,并输出图片的编码。
  1. 去掉末端的 softmax 单元,可以得到一个 4096 维的向量来表示这张图片
  2. 接着可以把这个向量输入到 RNN 中,RNN 通过每次生成一个单词的形式输出该图片的描述。事实证明,这种方法十分有效,特别是当输出的描述图片的句子不是特别长的时候

参考资料

[1]

吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm

本文分享自微信公众号 - DrawSky(wustcsken),作者:CloudXu

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [DeeplearningAI笔记]one-shot learning/Siamase网络/Triplet损失/

    然后输出两张图片的差异值--如果你放进同一个人的两张照片,你希望他能输出一个很小的值,如果你放进两个长相差别很大的人的照片

    DrawSky
  • [DeeplearningAI笔记]序列模型1.5-1.6不同类型的循环神经网络/语言模型与序列生成

    通过前向传播使用 Softmax 计算字典中各个单词出现的概率 输出字典中所有词的概率

    DrawSky
  • [吴恩达机器学习笔记]12支持向量机5SVM参数细节

    , 此时可以得到 m 个标记点与训练集中样本数一致,且每一个标记点的位置都与每一个样本的位置一致。 因为这说明特征函数基本上是在描述每一个样本距离与样本集中其...

    DrawSky
  • 如何提高FPGA工作频率?影响FPGA运行速度的几大因素

    对于设计者来说,当然希望我们设计的电路的工作频率(在这里如无特别说明,工作频率指FPGA片内的工作频率)尽量高。我们也经常听说用资源换速度,用流水的方式可以提高...

    数字芯片社区
  • PG主从数据库搭建

    1、使用postgres用户登录(PostgresSQL安装后会自动创建postgres用户,无密码)

    Karl Du
  • 图像分类:一个更鲁棒的场景分类模型

    移动互联网时代的开启使得图片的获取与分享越来越容易,图片已经成为人们交互的重要媒介。如何根据图像的视觉内容为图像赋予一个语义类别(例如,教室、街道等)是图像场景...

    机器学习AI算法工程
  • 泛型方法 原

    问题:编写一个泛型方法add(),当传入不同数字类型的值时,能够进行加法运算,(如可以传入int、long、float、double类型,但要对传入的值做一定的...

    wuweixiang
  • 面试完以后,我想在这里对程序员招聘的一些吐槽和建议

    【导读】:James Bennett 是一个来自美国西弗吉尼亚州的程序员,Python Web 框架 Django 的核心团队成员之一。做过自由职业者,也做过全...

    技术zhai
  • 对于程序员的招聘问题,作为软件人的一些吐槽和建议

    说真的,让我去掉前面这句中“似乎”二字吧。就是苦逼!很多人都曾抱怨处在招聘的一方很糟糕——我们没有任何可靠的方式来甄别会写代码并且写得好的人。这的确是真的,我们...

    技术zhai
  • 【我问 Crossin】python程序一闪而过,是我的打开方式不对?

    除了在公众号、交流群组或论坛上提问,大家有想问的问题也可以直接在本栏目文章下留言,接受以下提问: 与编程相关的问题 工作咨询、学习方向建议 程序猿的日常 Cro...

    Crossin先生

扫码关注云+社区

领取腾讯云代金券