上篇文章我们已经学习了循环神经网络的原理,并指出RNN存在严重的梯度爆炸和梯度消失问题,因此很难处理长序列的数据。本篇文章,我们将学习长短期记忆网络(LSTM,Long Short Term Memory),看LSTM解决RNN所带来的梯度消失和梯度爆炸问题。

1.从RNN到LSTM

RNN模型具有如下所示的结构,其中每个索引位置t都有一个隐藏状态$h^{(t)}$。

LSTM神经网络之前向反向传播算法图片01.png

如果省略每层的$o^{(t)},L^{(t)},y^{(t)}$,则RNN模型可以简化到如下所示的结构。其中隐藏状态的$h^{(t)}$由$x^{(t)}$和$h^{(t-1)}$得到,得到$h^{(t)}$后可用于计算当前层的模型损失和下一层的$h^{(t+1)}$。

LSTM神经网络之前向反向传播算法图片02.png

为解决梯度消失的问题,大牛们针对RNN序列索引位置t的隐藏结构作出相应改进,进而提出LSTM模型。其中LSTM模型有多种形式,下面我们以最常见的LSTM模型为例进行讲解。

LSTM神经网络之前向反向传播算法图片03.png

2.LSTM模型结构

LSTM模型除了和RNN模型具有相同的隐藏状态$h^{(t)}$外,还增加了新的隐藏状态$C^{(t)}$,如下图中横线所示。新增加的隐藏状态称为细胞状态(Cell State),记为$C^{(t)}$。

LSTM神经网络之前向反向传播算法图片04.png

除了细胞状态外,LSTM中还多了很多奇怪的结构,称之为门控结构(Gate)。针对每个序列索引位置t,门控结构一般包含遗忘门、输入门和输出门,下面来看看门控结构和细胞状态的结构。

2.1 LSTM之遗忘门

遗忘门(forget gate)是以一定的概率控制是否遗忘上一层的隐藏细胞状态,遗忘门的结构如下所示。

LSTM神经网络之前向反向传播算法图片05.png

输入是上一序列的隐藏状态$h^{(t-1)}$和本序列数据$x^{(t)}$,通过一个激活函数(一般是sigmoid),得到遗忘门的输出$f^{(t)}$。由于sigmoid的输出$f^{(t)}$在[0,1]之间,因此这里的$f^{(t)}$代表遗忘上一层隐藏细胞状态的概率,数学表达式如下所示。其中$W_{f},U_{f},b_{f}$为线性关系的系数和偏倚,$\sigma$为sigmoid激活函数。

$$ f^{(t)} = \sigma(W_{f}h^{(t-1)} + U_{f}x^{(t)} + b_{f}) $$

2.2 LSTM之输入门

输入门(input gate)负责处理当前序列位置的输入,输入门的结构如下所示。

LSTM神经网络之前向反向传播算法图片06.png

输入门由两部分组成,第一部分使用sigmoid激活函数,输出为$i^{(t)}$,第二部分使用tanh激活函数,输出为$a^{(t)}$,两者的结果后面会用于相乘后更新细胞状态。$i^{(t)}$和$a^{(t)}$数学表达式如下所示,其中$W_{i},U_{i},b_{i},W_{a},U_{a},b_{a}$为线性关系的系数和偏倚,$\sigma$为sigmoid激活函数。

$$ i^{(t)} = \sigma(W_{i}h^{(t-1)} + U_{i}x^{(t)} + b_i) $$

$$ a^{(t)} = \tanh(W_{a}h^{(t-1)} + U_{a}x^{(t)} + b_a) $$

2.3 LSTM之细胞状态更新

研究LSTM输出门之前,我们先看一下LSTM细胞状态的更新,其中遗忘门和输入门的结果都作用于细胞状态$C^{(t)}$。

LSTM神经网络之前向反向传播算法图片07.png

细胞状态$C^{(t)}$由两部分组成,第一部分是$C^{(t-1)}$和遗忘门输出$f^{(x)}$的乘积,第二部分是输入门的$i^{(t)}$和$a^{(t)}$的乘积,公式如下所示,其中$\odot$为Hadamard积。

$$ C^{(t)} = C^{(t-1)}\odot f^{(t)} + i^{(t)}\odot a^{(t)} $$

2.4 LSTM之输出门

有了新的隐藏细胞状态$C^{(t)}$,便可以来看输出门,其结构如下所示。

LSTM神经网络之前向反向传播算法图片08.png

隐藏状态$h^{(t)}$的细胞状态由两部分组成,第一部分$o^{(t)}$由上一序列的隐藏状态$h^{(t-1)}$和本序列数据$x^{(t)}$,以及激活函数Sigmoid组成。第二部分由隐藏状态$C^{(t)}$和tanh激活函数组成,公式如下所示

$$ o^{(t)} = \sigma(W_oh^{(t-1)} + U_ox^{(t)} + b_o) $$

$$ h^{(t)}= o ^{(t)}\odot tanh(C^{t}) $$

3.LSTM之前向传播算法

通过上面的介绍,已经能够得到LSTM前向传播算法主要包括更新遗忘门输出、更新输入门、更新细胞状态、更新输出门、更新当前序列索引预测输出,各传播过程如下所示。

  • 更新遗忘门输出

$$ f^{(t)} = \sigma(W_fh^{(t-1)} + U_fx^{(t)} + b_f) $$

  • 更新输入门两部分输出

$$ i^{(t)} = \sigma(W_ih^{(t-1)} + U_ix^{(t)} + b_i) $$

$$ a^{(t)} = tanh(W_ah^{(t-1)} + U_ax^{(t)} + b_a) $$

  • 更新细胞状态

$$ C^{(t)} = C^{(t-1)}\odot f^{(t)} + i^{(t)}\odot a^{(t)} $$

  • 更新输出门输出

$$ o^{(t)} = \sigma(W_oh^{(t-1)} + U_ox^{(t)} + b_o) $$

$$ h^{(t)} = o^{(t)}\odot tanh(C^{(t)}) $$

  • 更新当前序列索引预测输出

$$ \hat{y}^{(t)} = \sigma(Vh^{(t)}+c) $$

4.LSTM之反向传播算法

了解前向传播算法流程之后,对于反向传播算法就非常简单了。我们采用和RNN相同的反向传播算法思路,即通过梯度下降法迭代更新所有的参数。

RNN之中,我们通过隐藏状态$h^{(t)}$和梯度$\delta ^{(t)}$来反向传播误差。在LSTM中,我们有两个隐藏状态,即$h^{(t)}$和$C^{(t)}$

$$ \delta _h^{(t)} = \frac{\partial L}{\partial h^{(t)}} $$

$$ \delta _C^{(t)} = \frac{\partial L}{\partial C^{(t)}} $$

反向传播时,只有$\delta _C^{(t)}$在反向传播,$\delta_h^{(t)}$帮助在当前层计算,如下图所示。

LSTM神经网络之前向反向传播算法图片09.png

现在我们便来推导反向传播公式,首先是在最后索引位置$\tau$的$\delta_h^{(\tau)}$和$\delta_C^{(\tau)}$

$$ \delta_h^{(\tau)} = \frac{\partial L}{\partial O^{(\tau)}} \frac{\partial O^{(\tau)}}{\partial h^{(\tau)}} = V^T(\hat{y}^{(\tau)} - y^{(\tau)}) $$

$$ \delta_C^{(\tau)} = \frac{\partial L}{\partial h^{(\tau)}} \frac{\partial h^{(\tau)}}{\partial C^{(\tau)}} = \delta_h^{(\tau)} \odot o^{(\tau)}\odot (1- tanh^2(C^{(\tau)})) $$

接着由$\delta_C^{(t+1)}$反向推导$\delta_C^{(t)}$,其中$\delta_h^{(t)}$的梯度由本层的输出梯度误差决定,即

$$ \delta_h^{(t)} = \frac{\partial L}{\partial h^{(t)}} = V^T(\hat{y}^{(\tau)} - y^{(\tau)}) $$

而$\delta_C^{(t)}$的反向梯度由上一层$\delta_C^{(t+1)}$的梯度误差和本层从$h^{(t)}$传回来的梯度误差两部分决定,即

$$ \delta_C^{(t)} = \frac{\partial L}{\partial C^{(t+1)}} \frac{\partial C^{(t+1)}}{\partial C^{(t)}} + \frac{\partial L}{\partial h^{(t)}}\frac{\partial h^{(t)}}{\partial C^{(t)}}=\delta_C^{(t+1)}\odot f^{(t+1)} + \delta_h^{(t)} \odot o^{(t)}\odot (1- tanh^2(C^{(t)})) $$

有了$\delta_h^{(t)}$和$\delta_C^{(t)}$之后,计算$W_f,U_f,b_f,W_a,U_a,b_a,W_i,U_i,b_i,W_o,U_o,b_o,V,c$的梯度也就相对很容易了,比如$W_f$为

$$ \frac{\partial L}{\partial W_f} = \sum _{t=1}^{\tau} \frac{\partial L}{\partial C^{(t)}}\frac{\partial C^{(t)}}{\partial f^{(t)}}\frac{\partial f^{(t)}}{\partial W_f} = \sum _{t=1}^{\tau} \delta_C^{(t)}\odot C^{(t-1)}\odot f^{(t)}\odot (1-f^{(t)})(h^{(t-1)})^T $$

5.LSTM怎么解决梯度消失和梯度爆炸

RNN反向传播过程中我们得到如下公式。因为${\tanh}' \leq 1 $,对于训练过程中大部分情况tanh的导数是小于1的,如果W也是大于0小于1的值,那么传播下去便会趋于0,同理当W很大时,传播下去便会趋于无穷。因此便会出现梯度消失和梯度爆炸的问题。

$$ \frac{\partial h^{(t+1)}}{\partial h^{(t)}} = diag(1-(h^{(t+1)})^2)W^T $$

LSTM能够很好的解决梯度消失和梯度爆炸问题,但怎么解决的呢。我们来看看反向传播过程中$W_f$的变化

$$ \frac{\partial L}{\partial W_f} = \sum _{t=1}^{\tau} \frac{\partial L}{\partial C^{(t)}}\frac{\partial C^{(t)}}{\partial f^{(t)}}\frac{\partial f^{(t)}}{\partial W_f} = \sum _{t=1}^{\tau} \frac{\partial L}{\partial C^{(t+1)}} \frac{\partial C^{(t+1)}}{\partial C^{(t)}}\frac{\partial C^{(t)}}{\partial f^{(t)}}\frac{\partial f^{(t)}}{\partial W_f} \\ = \sum _{t=1}^{\tau}(\frac{\partial C^{(t+1)}}{\partial C^{(t)}}) \delta_C^{(t+1)} \odot C^{(t-1)}\odot f^{(t)}\odot (1-f^{(t)})(h^{(t-1)})^T $$

因为$C^{(t)} = C^{(t-1)}\odot f^{(t)} + i^{(t)}\odot a^{(t)}$,所以$\frac{\partial C^{(t+1)}}{\partial C^{(t)}}$为

$$ \frac{\partial C^{(t+1)}}{\partial C^{(t)}} = (f^{(t+1)} + ...) $$

公式里其余项不重要,这里用省略号代替。可以看出当$f^{(t+1)}=1$时,就算其余项很小,梯度仍然可以很好地传导到上一个时刻,即使层数较深也不会发生梯度下降的问题。当$f^{(t+1)}=0$时,上一时刻的信号不影响到当前时刻,则此项也会为0,$f^{(t)}$在这里控制着梯度传导到上一时刻的衰减程度。

5.LSTM总结

LSTM虽然复杂,但能够很好的解决梯度消失和梯度爆炸的问题,只要我们理清各部分之间的关系,进而理解前向和反向传播算法还是不难的。针对RNN和LSTM之中的梯度消失和梯度爆炸的描述,如果有相应错误,欢迎指出。

6.推广

更多内容请关注公众号谓之小一,若有疑问可在公众号后台提问,随时回答,欢迎关注,内容转载请注明出处。

推广.png

文章目录