RNN和DNN相比,RNN是有记忆的DNN,RNN将神经元的输出作为记忆保存起来,和后续的input一起参与后续的计算,而DNN每个神经元的输出只依赖于当前的input。此种情况下的DNN不太好训练,RNN的total loss变化非常陡峭,在训练的时候不是很好操作,原因是神经元的记忆保存,对于长序列情况,同样的权重会被反复积累使用,微小的差别经过积累/相乘之后,差异较大,比如$1.01^{1000}=20000,0.99^{1000}=0$,而1.01和0.99的本身差异是比较小的。
解决RNN梯度消失或梯度爆炸的方法,常见就是LSTM,通过4个输入(3个控制gate,1个输入),1个输出来解决。
假设样本序列为$x^t, x^{t+1}, x^{t+2}…$,LSTM的memery cell的数量为1,即只有一个记忆神经元,可以有
$
x^{t}.w=z \\
x^{t}.w^{i}=z^{i} \\
x^{t}.w^{f}=z^{f} \\
x^{t}.w^{o}=z^{o} \\
c^{t}=g(z)f(z^{i})+c^{t-1}f(z^{f}) \\
output^t=f(z^{o})h(c^{t}) \\
$
其中,$f, g, h$都是激活函数,f一般选simoid,将$z^i, z^o, z^f$约束到0-1之间,代表三个门的开关程度,$g, h$可以选择线性或者sigmoid。
训练$x^{t+1}$时,输出output,$c^{t}$和$x^{t+1}$一起作为输入,即$(output^{t}, c^t, x^{t+1})$
与LSTM相似,GRU少一个gate,参数比LSTM少,能够达到相当的功能。
$
sigmoid(x^{t}.w)=z \\
sigmoid(x^{t}.w^{r})= r \\
tanh((x^{t}, r.h^{t-1}).w^{h})=h \\
h^{t}=(1-z).h^{t-1}+z.h \\
output^t=h^{t}
$
训练$x^{t+1}$时,$h^{t}$和$x^{t+1}$一起作为输入,即$(h^t, x^{t+1})$作为上式子中的$x^{t}$