展会信息港展会大全

循环神经网络 RNN、LSTM、GRU
来源:互联网   发布日期:2019-11-11 09:33:54   浏览:30723次  

导读:与传统的前向神经网络和卷积神经网络 (CNN) 不同,循环神经网络 (Recurrent Neural Networks,RNN)是一种擅于处理序列数据的模型,例如文本、时间序列、股票市场等。本文主……...

与传统的前向神经网络和卷积神经网络 (CNN) 不同,循环神经网络 (Recurrent Neural Networks,RNN)是一种擅于处理序列数据的模型,例如文本、时间序列、股票市场等。本文主要介绍循环神经网络中的几种重要模型 RNN、LSTM、GRU 的发展过程与结构区别,并详细推导了 RNN 中的梯度爆炸与梯度消失的原因。

1. 循环神经网络背景

前向神经网络和 CNN 在很多任务中都取得不错的效果,但是这些网络结构的通常比较适合用于一些不具有时间或者序列依赖性的数据,接受的输入通常与上一时刻的输入没有关系。

但是序列数据不同,输入之间存在着先后顺序,当前输入的结果通常与前后的输入都有关。例如一段句子包含 4 个输入单词 :“我”、“去”、“商场”、“打车”,4 个单词通过不同的顺序排列,会有不同的意思,“我打车去商场” 和 “我去商场打车”。因此我们通常需要按照一定的顺序阅读句子才能理解句子的意思。

面对这种情况我们就需要用到循环神经网络了,循环神经网络按照顺序处理所有的输入,每一时刻 t,都会存在一个向量h保存与 t 时刻相关的信息 (可以是 t 时刻前的信息或者 t 时刻后的信息)。通过向量h与输入向量x,就可以比较准确地判断当前的结果。在下文中的符号表示:

xt 表示 t 时刻的输入向量(例如第 t 个单词的词向量)

ht 表示 t 时刻的隐藏向量 (包含了从开始一直到 t 时刻的相关信息)

yt 表示 t 时刻的输出向量 (通常是预测的结果)。

2. RNN

2.1 RNN 结构

RNN 是比较早期的循环神经网络,结构相对简单,通常的结构如下图所示。

RNN 单个神经元

图中xhy分别代表 RNN 神经元的输入、隐藏状态、输出。

UWV是对向量xhy进行线性变换的矩阵。

在 RNN 中每一时刻都共用同一个神经元,将神经元展开之后如下图所示。

RNN 神经元展开

可以看到 RNN 在 t 时刻的神经元接收的输入包括:当前时刻的输入xt 以及上一时刻的隐藏状态ht-1。输出包括:当前时刻的隐藏状态ht 和当前时刻的输出yt 。

因此在 RNN 中输入xt 只包含 t 时刻信息,不包含顺序信息;而ht 是根据xt 和ht-1 计算得到的,包含了历史信息与当前输入信息。ht 与yt 的计算方法如下,计算ht 时激活函数通常采用 tanh,计算输出yt 时激活函数通常是 softmax (分类)。

2.2 RNN 的缺陷 (梯度消失与梯度爆炸)

我们先看一下只有 3 个输入数据的序列,如上图所示。此时我们的隐藏层h1、h2、h3 和输出y1、y2、y3 的计算公式:

RNN 在时刻 t 的损失函数为Lt,总的损失函数为L=L1 +L2 +L3。

t = 3 时刻的损失函数 L3 对于网络参数 U、W、V 的梯度如下:

可以看到对于参数矩阵V(对应输出yt) 的梯度并没有长期依赖,只与 t = 3 时刻的序列相关。但是参数矩阵U(对应输入xt) 和参数矩阵W(对应隐藏状态ht) 的梯度均有长期依赖,依赖于之前的隐藏层状态 h1、h2。可以推导出时刻 t 的损失函数Lt 对于UW的梯度如下:

其中的连乘项就是导致 RNN 出现梯度消失与梯度爆炸的罪魁祸首,连乘项可以如下变换:

tanh' 表示 tanh 的导数,可以看到 RNN 求梯度的时候,实际上用到了 (tanh' ×W) 的连乘。当 (tanh' ×W) > 1 时,多次连乘容易导致梯度爆炸;当 (tanh' ×W)

因为 RNN 计算梯度时候的问题,所以 LSTM (长短期记忆网络) 就出现了。LSTM 在很多方面都碾压了 RNN,并且可以很好地缓解梯度消失梯度爆炸的问题。

3. LSTM

我们可以通过 LSTM 比较好地缓解 RNN 梯度消失的问题,我们先了解一下 LSTM 的结构。

3.1 LSTM 结构

RNN 与 LSTM 内部结构区别

上图来源于 colah 的博客,可以看到 LSTM 和 RNN 的神经元结构有比较大的区别。传统 RNN 神经元会接受上一时刻的隐藏状态ht-1 和当前输入xt。

而 LSTM 的神经元在此基础上还输入了一个 cell 状态ct-1, cell 状态c和 RNN 中的隐藏状态h相似,都保存了历史的信息,从ct-2 ~ct-1 ~ct。在 LSTM 中c与 RNN 中的h扮演的角色很像,都是保存历史状态信息,而在 LSTM 中的h更多地是保存上一时刻的输出信息。

除此之外,LSTM 内部的计算更加复杂,包含了遗忘门、输入门和输出门,接下来分别介绍每一个门的作用。

遗忘门:上图中红色框中的是 LSTM 遗忘门部分,用来判断 cell 状态ct-1 中哪些信息应该删除。其中σ表示激活函数 sigmoid。输入的ht-1 和xt 经过 sigmoid 激活函数之后得到ft,ft 中每一个值的范围都是 [0, 1]。ft 中的值越接近 1,表示 cell 状态ct-1 中对应位置的值更应该记住;ft 中的值越接近 0,表示 cell 状态ct-1 中对应位置的值更应该忘记。将ft 与ct-1 按位相乘 (ElementWise 相乘),即可以得到遗忘无用信息之后的c't-1。

输入门:上图中红色框中的是 LSTM 输入门部分,用来判断哪些新的信息应该加入到 cell 状态c‘t-1 中。其中σ表示激活函数 sigmoid。输入的ht-1 和xt 经过 tanh 激活函数可以得到新的输入信息 (图中带波浪线的Ct),但是这些新信息并不全是有用的,因此需要使用ht-1 和xt 经过 sigmoid 函数得到it,it 表示哪些新信息是有用的。两向量相乘后的结果加到c’t-1 中,即得到 t 时刻的 cell 状态ct。

输出门:上图中红色框中的是 LSTM 输出门部分,用来判断应该输出哪些信息到ht 中。cell 状态ct 经过 tanh 函数得到可以输出的信息,然后ht-1 和xt 经过 sigmoid 函数得到一个向量ot,ot 的每一维的范围都是 [0, 1],表示哪些位置的输出应该去掉,哪些应该保留。两向量相乘后的结果就是最终的ht。

3.1 LSTM 缓解梯度消失、梯度爆炸

在上一节中我们知道,RNN 中出现梯度消失的原因主要是梯度函数中包含一个连乘项,如果能够把连乘项去掉就可以克服梯度消失问题。如何去掉连乘项呢?我们可以通过使连乘项约等于 0 或者约等于 1,从而去除连乘项。

LSTM 中通过的作用,可以使连乘项约等于 0 或者 1。首先我们看一下 LSTM 中ct 与ht 的计算公式。

在公式中 ft 与 ot 都是通过 sigmoid 函数得到的,意味着它们的值要么接近 0,要么接近 1。因此在 LSTM 中的连乘项变成:

因此当门的梯度接近1时,连乘项能够保证梯度很好地在 LSTM 中传递,避免梯度消失的情况发生。

而当门的梯度接近 0 时,意味着上一时刻的信息对当前时刻并没有作用,此时没有必要把梯度回传。

这就是 LSTM 能够克服梯度消失、梯度爆炸的原因。

4. GRU

GRU 是 LSTM 的一种变种,结构比 LSTM 简单一点。LSTM有三个门 (遗忘门 forget,输入门 input,输出门output),而 GRU 只有两个门 (更新门 update,重置门 reset)。另外,GRU 没有 LSTM 中的 cell 状态c

图中的zt 和rt 分别表示更新门 (红色) 和重置门 (蓝色)。重置门rt 控制着前一状态的信息ht-1 传入候选状态 h~t 的比例,重置门rt 的值越小,则与ht-1 的乘积越小,ht-1 的信息添加到 h~t 越少。更新门用于控制前一状态的信息ht-1 有多少保留到新状态ht 中,当 (1-zt) 越大,保留的信息越多。

5. 总结

循环神经网络适合用于序列数据,也是学习 NLP 过程中必学的模型,很多 NLP 的应用、算法都用到了循环神经网络。

传统的循环神经网络 RNN 容易出现梯度消失与梯度爆炸的问题,因此目前比较常用的一般是 LSTM 及其变种。

在实际使用的过程中,还可以加深循环神经网络,即多层循环神经网络;也可以增加反向的网络,例如 biLSTM,可以同时利用前向的信息和后向的信息。

参考文献

1. colah 的博文:Understanding LSTM Networks 网址:http://colah.github.io/posts/2015-08-Understanding-LSTMs/

2. 简书文章:RNN中梯度消失和梯度爆炸的原因 网址:https://www.jianshu.com/p/b06e64dad6fd

赞助本站

人工智能实验室

相关热词: 循环神经网络 lstm

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港