Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >seq2seq 入门

seq2seq 入门

作者头像
杨熹
发布于 2018-04-03 07:59:03
发布于 2018-04-03 07:59:03
9440
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

本文结构:

  • 什么是 seq2seq?
  • Encoder–Decoder 结构?
  • seq2seq 结构?

什么是 seq2seq?

seq2seq 是一个 Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。

这个结构最重要的地方在于输入序列和输出序列的长度是可变的,可以用于翻译,聊天机器人,句法分析,文本摘要等。

下面是写过的 seq2seq 的应用:

RNN与机器翻译

http://www.jianshu.com/p/23b46605857e

如何自动生成文本摘要

http://www.jianshu.com/p/abc7e13abc21

自己动手写个聊天机器人吧

http://www.jianshu.com/p/d0f4a751012b


Encoder–Decoder 结构?

Cho 在 2014 年提出了 Encoder–Decoder 结构,即由两个 RNN 组成,

https://arxiv.org/pdf/1406.1078.pdf

(其中的 RNNCell 可以用 RNN ,GRU,LSTM 等结构)

在每个时刻, Encoder 中输入一个字/词,隐藏层就会根据这个公式而改变,

到最后一个字/词 XT 时 ,隐藏层输出 c ,因为 RNN 的特点就是把前面每一步的输入信息都考虑进来了,所以 c 相当于把整个句子的信息都包含了,可以看成整个句子的一个语义表示。

Decoder 在 t 时刻的隐藏层状态 ht 由 ht−1,yt−1,c 决定:

yt 是由 ht,yt−1,c 决定:

f 和 g 都是激活函数,其中 g 函数一般是 softmax。

模型最终是要最大化下面这个对数似然条件概率:

其中每个 (xn, yn) 表示一对输入输出的序列, θ 为模型的参数。


seq2seq 结构?

Sutskever 在 2014 年也发表了论文:

https://arxiv.org/pdf/1409.3215.pdf

这个模型结构更简单,

因为 Decoder 在 t 时刻 yt 是由 ht,yt−1 决定,而没有 c:

论文中的 Encoder 和 Decoder 都用的 LSTM 结构,注意每句话的末尾要有 “<EOS>” 标志。 Encoder 最后一个时刻的状态 cXT,hXT 就和第一篇论文中说的中间语义向量 c 一样,它将作为 Decoder 的初始状态,在 Decoder 中,每个时刻的输出会作为下一个时刻的输入,直到 Decoder 在某个时刻预测输出特殊符号 <END> 结束。

LSTM 的目的是估计条件概率 p(y1, . . . , yT′ |x1, . . . , xT ) ,

它先通过最后一个隐藏层获得输入序列 (x1, . . . , xT ) 的固定长度的向量表达 v,

然后用 LSTM-LM 公式计算输出序列 y1, . . . , yT′ 的概率,

在这个公式中,初始状态就是 v,

而且用了 4 层的 LSTM,而不是一层:论文中的实验结果表明深层的要比单层的效果好

下面是个 3 层的例子

计算公式如下:

为了便于理解,单层的表示如下:

并且对输入序列做了一个翻转,即不是把 a, b, c 映射到 α, β, γ, 而是把 c, b, a 映射到 α, β, γ, 这样的结果是相应的 a 会更接近 α,并且更利于 SGD 建立输入输出间的关系。


参考:

Learning Phrase Representations using RNN Encoder–Decoder

for Statistical Machine Translation

https://arxiv.org/pdf/1406.1078.pdf

Sequence to Sequence Learning

with Neural Networks

https://arxiv.org/pdf/1409.3215.pdf

Generating Sequences With

Recurrent Neural Networks

https://arxiv.org/pdf/1308.0850.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.06.11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
论文荐读 | NLP之Attention从入门到精通
Sequence to Sequence Learning with Neural Networks
马上科普尚尚
2020/05/14
9800
十分钟掌握Keras实现RNN的seq2seq学习
作者 | Francois Chollet 编译 | 雁惊寒 seq2seq是一种把序列从一个域(例如英语中的句子)转换为另一个域中的序列(例如把相同的句子翻译成法语)的模型训练方法。目前有多种方法可以用来处理这个任务,可以使用RNN,也可以使用一维卷积网络。 很多人问这个问题:如何在Keras中实现RNN序列到序列(seq2seq)学习?本文将对此做一个简单的介绍。 什么是seq2seq学习 序列到序列学习(seq2seq)是一种把序列从一个域(例如英语中的句子)转换为另一个域中的序列(例如把相同的句子
用户1737318
2018/06/05
9610
NLP硬核入门-Seq2Seq和Attention机制
本文需要的前序知识储备是:循环神经网络RNN,词向量WordEmbedding,门控单元VanillaRNN/GRU/LSTM。
zenRRan
2019/11/12
6670
自然语言处理seq2seq模型实现人工智能对对联(基于TensorFlow框架)
春节贴春联是中国人庆祝春节(过年)的特有习俗。但我真正对对联有些认识和喜欢,不是从年年贴春联开始的,而是从《唐伯虎点秋香》那段经典的对对子开始的。那工整又有韵律和意境的对子,配上有节奏的配乐读出来着实让人热血沸腾,大呼过瘾。
不脱发的程序猿
2021/01/20
1.1K0
Seq2Seq模型
前言: 此文翻译自TensorFlow tutorial: Sequence-to-Sequence Models 本文的尽量在做到意思正确的情况下,做到不尬翻。但第一次尝试翻译,另加上英语水平有
用户1148830
2018/01/04
1.1K0
Seq2Seq模型
Seq2Seq与注意力机制
在基于词语的语言模型中,我们使用了循环神经网络。它的输入时一段不定长的序列,输入却是定长的,例如输入:They are,输出可能是watching或者sleeping。然而,很多问题的输出是不定长的序列。以机器翻译为例,输入是一段英文,输出是一段法语,输入和输出皆不定长,例如
mathor
2020/04/10
6260
深度学习:Seq2seq模型
http://blog.csdn.net/pipisorry/article/details/78258198
用户7886150
2020/12/28
7610
从Seq2seq到Attention模型到Self Attention(一)
近一两年,注意力模型(Attention Model)是深度学习领域最受瞩目的新星,用来处理与序列相关的数据,特别是2017年Google提出后,模型成效、复杂度又取得了更大的进展。以金融业为例,客户的行为代表一连串的序列,但要从串行化的客户历程数据去萃取信息是非常困难的,如果能够将self-attention的概念应用在客户历程并拆解分析,就能探索客户潜在行为背后无限的商机。然而,笔者从Attention model读到self attention时,遇到不少障碍,其中很大部分是后者在论文提出的概念,鲜少有文章解释如何和前者做关联,笔者希望藉由这系列文,解释在机器翻译的领域中,是如何从Seq2seq演进至Attention model再至self attention,使读者在理解Attention机制不再这么困难。
量化投资与机器学习微信公众号
2018/10/25
1.8K0
从Seq2seq到Attention模型到Self Attention(一)
文本生成seq2seq框架
Seq2Seq是Sequence to Sequence的缩写,作用是将一个序列(sequence)映射成另一个序列(sequence)。文献[1]和文献[2]分别提出利用深度神经网络DNN实现端到端的Seq2Seq学习,将Seq2Seq应用于神经机器翻译(Neural Machine Translation,NMT),唯一不同的是在[1]中使用LSTM作为基础网络,而在[2]中则是使用的是RNN。在Seq2Seq框架中包含了两个模块,一个是encoder模块,另一个是decoder模块。这种同时包含encoder和decoder的结构与AutoEncoder网络相似,不同的是AutoEncoder模型是将输入通过encoder的网络生成中间的结果,并通过decoder对中间的结果还原,AutoEncoder的模型结构如下图所示:
felixzhao
2022/05/12
6730
文本生成seq2seq框架
重磅!!|“自然语言处理(NLP)系列08”之 Seq2Seq模型详解
参考论文下载:https://pan.baidu.com/s/1Er6Ybdh8Zn2-BZRykkD-Sg 提取码:wnni
ShuYini
2019/08/08
1K0
重磅!!|“自然语言处理(NLP)系列08”之 Seq2Seq模型详解
详细介绍Seq2Seq、Attention、Transformer !!
本文将从Seq2Seq工作原理、Attention工作原理、Transformer工作原理三个方面,详细介绍Encoder-Decoder工作原理。
JOYCE_Leo16
2024/03/19
2K0
详细介绍Seq2Seq、Attention、Transformer !!
从Seq2seq到Attention模型到Self Attention(二)
系列一介绍了Seq2seq和 Attention model。这篇文章将重点摆在Google於2017年发表论文“Attention is all you need”中提出的 “”The transformer模型。”The transformer”模型中主要的概念有2项:1. Self attention 2. Multi-head,此外,模型更解决了传统attention model中无法平行化的缺点,并带来优异的成效。
量化投资与机器学习微信公众号
2018/10/25
2.4K0
从Seq2seq到Attention模型到Self Attention(二)
seq2seq 的 keras 实现
上一篇 seq2seq 入门 提到了 cho 和 Sutskever 的两篇论文,今天来看一下如何用 keras 建立 seq2seq。 第一个 LSTM 为 Encoder,只在序列结束时输出一个语
杨熹
2018/04/03
2.1K0
seq2seq 的 keras 实现
机器翻译不可不知的Seq2Seq模型
Seq2Seq,全称Sequence to Sequence。它是一种通用的编码器——解码器框架,可用于机器翻译、文本摘要、会话建模、图像字幕等场景中。Seq2Seq并不是GNMT(Google Neural Machine Translation)系统的官方开源实现。框架的目的是去完成更广泛的任务,而神经机器翻译只是其中之一。在循环神经网络中我们了解到如何将一个序列转化成定长输出。在本文中,我们将探究如何将一个序列转化成一个不定长的序列输出(如机器翻译中,源语言和目标语言的句子往往并没有相同的长度)。
机器学习算法工程师
2018/07/27
1.5K0
机器翻译不可不知的Seq2Seq模型
Transformer各层网络结构详解!面试必备!(附代码实现)
《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文(https://arxiv.org/pdf/1706.03762.pdf)。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。
AI研习社
2019/10/08
2.1K0
Transformer各层网络结构详解!面试必备!(附代码实现)
使聊天机器人的对话更有营养
这篇论文的目的是让聊天机器人的回复更有营养,例如下面这种场景,要尽量避免‘我也是’‘明白。
杨熹
2018/04/03
1.1K0
使聊天机器人的对话更有营养
PyTorch专栏(二十一):使用Sequence2Sequence网络和注意力进行翻译
这可以通过序列到序列网络来实现,其中两个递归神经网络一起工作以将一个序列转换成另一个序列。编码器网络将输入序列压缩成向量,并且解码器网络将该向量展开成新的序列。
磐创AI
2019/11/13
2K0
Seq2Seq模型的构建
Seq2Seq是指一般的序列到序列的转换任务,特点是输入序列和输出序列是不对齐的,比如机器翻译、自动文摘等等。
故事尾音
2019/12/16
1.3K0
Seq2Seq模型的构建
谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统
选自谷歌 机器之心编译 参与:机器之心编辑部 近日,谷歌官方在 Github 开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型,随后更进一步引进注意力机制和多层 LSTM 加强系统的性能,最后谷歌根据 GNMT 提供了更进一步改进的技巧和细节,这些技巧能令该NMT系统达到极其高的精度。机器之心对该教程进行简要的描述,跟详细和精确的内容请查看项目原网站。 GitHub 链接:https://github.com/tensorflow/nmt 机器翻译,即跨语言间的自动翻译,
机器之心
2018/05/09
1.7K0
谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统
Encoder-Decoder 和 Seq2Seq
Encoder-Decoder 模型主要是 NLP 领域里的概念。它并不特值某种具体的算法,而是一类算法的统称。Encoder-Decoder 算是一个通用的框架,在这个框架下可以使用不同的算法来解决不同的任务。
easyAI
2019/12/18
1.6K0
Encoder-Decoder 和 Seq2Seq
相关推荐
论文荐读 | NLP之Attention从入门到精通
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文