深度学习基础 | 从Language Model到RNN

NewBeeNLP

发布于 2021-10-20 10:11:38

6310

发布于 2021-10-20 10:11:38

文章被收录于专栏：NewBeeNLP

作者 | Chilia 整理 | NewBeeNLP

循环神经网络 (RNN) 是一种流行的「序列数据」算法，被 Apple 的 Siri 和 Google 的语音搜索使用。RNN使用内部存储器(internal memory)来记住其输入，这使其非常适合涉及序列数据的机器学习问题。

本文介绍引入RNN的问题--Language Model，并介绍RNN的重要公式，作为Stanford cs224n lecture6的总结和补充。

在介绍RNN之前，我们先介绍最初引入RNN的问题---「Language Modeling」。

「定义：」 Language Modeling就是预测下一个出现的词的概率的任务。(Language Modeling is the task of predicting what word comes next.)

即：

P(x^{t+1}|x^t,x^{t-1}...x^1)

简化：一个词出现的概率只和它前面的n-1个词有关系，这就是"n-gram"的含义。因此有:

n-gram model 是不使用深度学习的方法，直接利用「条件概率」来预测下一个单词是什么。但这个模型有几个问题：

由于丢弃了比较远的单词，它不能够把握全局信息。例如，“as the proctor started the clock” 暗示这应该是一场考试，所以应该是students opened their 「exam」. 但如果只考虑4-gram，的确是book出现的概率更大。
sparsity problem. 有些短语根本没有在语料中出现过，比如"student opened their petri-dishes". 所以，petri-dishes的概率为0. 但是这的确是一个合理的情况。解决这个问题的办法是做拉普拉斯平滑，对每个词都给一个小权重。
sparsity problem的一个更加糟糕的情况是，如果我们甚至没有见过"student open their",那么分母直接就是0了。对于这种情况，可以回退到二元组，比如"student open".这叫做backoff
存储空间也需要很大。

想要求"the students opened their"的下一个词出现的概率，首先将这四个词分别embedding，之后过两层全连接，再过一层softmax，得到词汇表中每个词的概率分布。我们只需要取概率最大的那个词语作为下一个词即可。

「优点：」

「缺点：」

正因为上面所说的缺点，需要引入RNN。

「RNN的结构：」

W_e

做点乘，作为hidden state的输入。

h^{(0)}

是一个随机初始化的值，之后每个hidden state的输出值都由前一个hidden state的输出和当前的输入决定。

「RNN的优势：」

可以处理任意长的输入序列
前面很远的信息也不会丢失(这样我们就可以看到前面的"as the proctor start the clock",从而确定应该是"student opened their exam"而不是"student opened their books").
模型的大小不会随着输入序列变长而变大。因为我们只需要

W_e

和

W_h

这两个参数

W_e,W_h,b

对于每一步都是一样的(共享权重)，每一步都能学习

W_e,W_h,b

,更加efficient

「RNN的坏处：」