递归神经网络研究进展
HojjatSalehinejad、沙兰Sankar、JosephBarfett、ErrolColak和ShahrokhValaee
1
递归神经网络研究进展
HojjatSalehinejad、沙兰Sankar、JosephBarfett、ErrolColak和ShahrokhValaee
索引术语-深度学习、长期依赖性、循环神经网络、时间序列分析。
I.一、生产
“浅层网络”是指具有一个输入层、一个输出层和最多一个没有循环连接的隐藏层的人工神经网络。随着网络层数的增加,网络的复杂性也随之增加。 更多的层数或递归连接通常会增加网络的深度,并使其能够提供各种级别的数据表示和特征提取,称为“深度学习”。一般来说,这些网络由非线性但简单的单元组成,其中,=61>层提供数据的更抽象的表示,并抑制不需要的可变性[1]。 由于每一层的非线性组合造成的优化困难,在2006年取得重大进展之前,没有太多关于深度网络架构的工作[2],[3]具有循环连接的ANN被称为循环神经网络<span id=116>(RNN),能够对序列数据进行建模,用于序列识别和预测[4]RNN由具有非线性动力学的高维隐藏状态组成[5]隐藏状态的结构作为网络的记忆和</span>隐藏层每次都以其先前的状态为条件[6]这种结构使RNN能够长时间存储、记忆和处理过去的复杂信号。RNN可以将输入序列映射到当前时间步的输出序列,并预测下一个时间步的序列。
在基于RNN的文献中,从阿尔奇设计到应用,都有大量的论文发表
H. Salehinejad是加拿大多伦多的多伦多大学电子&计算机工程系和加拿大圣路易斯的医学影像系的教授。加拿大多伦多多伦多大学迈克尔医院,电子邮件:salehinejadh@ smh. ca。
S. 桑卡尔就职于加拿大滑铁卢大学电气与计算机工程系,电子邮件:sdsankar@ edu. uwaterloo. ca。
J. Barfett和E. Colak是加拿大多伦多多伦多大学圣迈克尔医院医学影像系的电子邮件barfettj,colake@smh.ca。
S. Valaee在加拿大多伦多的多伦多大学电子&计算机工程系工作,电子邮件:valaee@ece.utoronto.ca。
表1:递归神经网络(RNN)的一些主要进展一览。
|
|
|
1990 | Elman |
|
1993 |
|
|
1994 | Bengio |
|
1997 | Hochreiter |
|
1997 |
|
|
1998 | LeCun |
|
2000 | Gers |
|
2001 |
|
|
2005 | Morin |
|
2005 |
|
|
2007 | Jaeger |
|
2007 |
|
|
2009 |
|
|
2010 | Mikolov |
|
2010 |
|
|
2011 | Martens |
|
2011 | Mikolov |
|
2011 | Sutskever |
|
2011 |
|
|
2012 | Gutmann |
|
2012 | Mnih |
|
2012 | Pascanu |
|
2013 | Mikolov |
|
2013 | Sutskever |
|
2013 |
|
|
2014 | Cho |
|
2015 | Zaremba |
|
2015 | Mikolov |
|
2015 |
|
|
2015 | Gregor |
|
2015 | Kalchbrenner |
|
2015 | Srivastava |
|
2017 |
|
|
发展在本文中,我们重点讨论离散时间RNN和该领域的最新进展。表I列出了RNN在时间上的一些主要进展。使用梯度下降(GD)的反向传播的发展为训练RNN提供了很好的机会。这种简单的训练方法加速了开发RNN的实际成就[5]。 然而,它带来了一些挑战,在建模长期的依赖,如消失和爆炸梯度问题,这是讨论这一点
2
本文
其余的文件组织如下。RNN的基本原理在第二节中介绍。第三节讨论了训练RNN的方法,第四节介绍了各种RNN架构。训练RNN的正则化方法将在第五节中讨论。最后,在第六节中简要介绍了RNN在信号处理中的主要应用。
二.一个简单的欧元汇率网络
RNN是一类有监督的机器学习模型,由具有一个或多个反馈回路的阿尔蒂神经元组成[7]反馈回路是随时间或序列(我们在本文中称之为时间)而循环的周期[8],如<span id=43>在图1中。以监督的方式训练RNN需要输入-目标对的训练数据集。目标是最小化输出和目标对之间的差异(即,损失值)。
A. 模型架构
一个简单的RNN有三层,分别是输入层、递归隐藏层和输出层,如图1a所示。输入层具有N个输入单元。该层的输入是通过时间t的向量序列,例如{. x1,x,xt+1,.},其中x=(x1,x2,...,xN)。 全连接RNN中的输入单元连接到隐藏层中的隐藏单元,其中连接由权矩阵WIH定义。隐藏层具有M个隐藏单元ht=(h1,h2<span id=98>,.,hM),它们通过循环连接在时间上相互连接,图1b。使用小的非零元素初始化隐藏单元可以提高网络的整体性能和稳定性[9]隐藏层将系统的状态空间或“内存”定义为
h= fH(o),(1)
哪里
o=WIHX+WHHh1+Bh,(2)
fH(·)是隐藏层激活函数,并且Bh是隐藏单元的偏置向量。隐藏单元通过加权连接WHO连接到输出层。
层具有P个单元y=(y1,y2,...,yP),其计算为y= fO(WHOh+Bo)(3)
其中fO(·)是激活函数,并且BO是输出层中的偏置向量。由于输入-目标对在时间上是连续的,因此在时间t=(1,.,T)的情况下。 等式(1)和(3)表明RNN由某些非线性状态方程组成,这些方程可随时间迭代。在每个时间步中,隐藏状态基于输入向量在输出层提供预测。RNN的隐藏状态是一组值,除了任何外部因素的影响外,它总结了许多时间步长上关于网络过去状态的所有唯一必要信息。这些综合信息可以定义网络的未来行为,并在输出层做出准确的预测[5]。 RNN使用简单的
t
t+1t+2时间
(B)随时间展开的RNN。
图1:一个简单的递归神经网络(RNN)及其随时间的展开结构。每个箭头显示层之间的单元的完整连接。为了使数字简单,没有显示偏差。
非线性激活函数。然而,这种简单的结构是能够建模里奇动态,如果它是通过时间步长良好的训练。
B。激活函数
对于线性网络,多个线性隐藏层充当单个线性隐藏层[10]非线性函数比线性函数更强大,因为它们可以在边界附近绘制非线性。RNN中的一个或连续隐藏层中的非线性是学习输入-目标关系的原因。
一些最流行的激活函数如图2所示。近年来,“sigmoid“、“tanh“和修正的艾德线性单元(ReLU)比其他激活函数受到了更多的关注。 “sigmoid”是一种常见的选择,它接受一个真实的-值并将其压缩到范围[0,1]。该激活函数通常用于输出层,其中交叉熵损失函数用于训练分类模型。 “tanh”和“sigmoid”激活函数是
和
分别“tanh”激活函数实际上是一个缩放的“sigmoid”激活函数,例如
σ(x)=
ReLU是另一个流行的激活函数,它对于正输入值是开放式的[3],定义为
y(x)=max(x,0)。(七)
激活函数的选择主要取决于问题和数据的性质。例如,“sigmoid”适用于输出在[0,1]范围内的网络,然而,“tanh“和“sigmoid“激活函数使神经元非常快地饱和,并且c可以使梯度消失。尽管有“tanh”,但“sigmoid”的非零集中输出
3
out | 1 0.5 0 −0.5 −1 | out | 1 0.5 0 −0.5 −1 |
−4 −2 0 2 4
| −4 −2 0 2 4
|
out | 1 0.5 0 −0.5 −1 | out | 1 0.5 0 −0.5 −1 |
−4 −2 0 2 4
| −4 −2 0 2 4
|
(e)sinnet直到饱和。(f)S形2:最常见的激活功能。
可能导致权重的梯度更新S中的不稳定动态。与“sigmoid”或“tanh”激活函数相比,ReLU激活函数导致梯度更稀疏,并大大加速了随机梯度下降(SGD)的收敛[11]。 ReLU在计算上是非常简单的,因为它可以通过将激活值阈值设置为零来实现。然而,ReLU不再抵抗大的梯度流,并且随着权重矩阵的增长,神经元在训练期间可能保持不活动。
C. 损失函数
损失函数通过比较输出y与相应的目标z来评估网络的性能,定义为
L(y,z)= 0t
这是每个时间步中损失的总和[12]损失函数的选择取决于问题。一些流行的损失函数是用于预测实值的欧几里得距离和汉明距离,以及分类问题输出概率分布的交叉熵[13].
三. TRAININGRECUREANEURALNETWORK
RNN的有效训练是一个主要问题。困难在于正确初始化RNN中的权重s。
网络和优化算法来调整它们,以最小化训练损失。网络参数之间的关系和隐藏状态随时间的动态变化会导致不稳定性[4]。 对文献中提出的方法的一瞥表明,主要焦点是降低训练算法的复杂性,同时加速收敛。然而,通常这样的算法需要大量的迭代来训练模型。 用于训练RNN的一些方法是多网格随机搜索,时间加权伪牛顿优化GD扩展卡尔曼滤波器(EKF)[15],Hessian-free,期望最大化(EM)[16],近似Levenberg-Marquardt[17]和全局<sp优化算法。在本节中,我们将详细讨论一些se方法。详细比较见[18].
A.初始化
RNN中权重和偏差的计算是至关重要的。一般规则是为权重分配较小的值。标准差为0.001或0.01的高斯绘制是合理的选择[9],[19]。 偏差通常设置为零,但输出偏差也可以设置为非常小的值[9]然而,参数的初始化取决于输入数据的任务和属性,例如维度[9]使用<span id=78>先验知识或半监督方式是其他方法[4].
B。基于梯度的学习方法
梯度下降(GD)是深度学习中一种简单而流行的优化方法。基本思想是通过找到模型中权重矩阵每个成员的误差函数导数来调整模型的权重[4]为了使总损失最小化,GD与<如果非线性激活函数是可微的,则误差相对于该权重的导数。 GD也称为批处理GD,因为它在每次优化迭代中计算整个数据集的梯度,以执行单个更新,
θt+1 = θt −
k (9)
其中U是训练集的大小,λ是学习率,dθ是参数集。这种方法对于非常大的数据集在计算上是昂贵的,并且不适合在线训练(即,当输入到达时训练模型)。
由于RNN是一个通过时间的结构,我们需要通过时间来扩展GD来训练网络,称为通过时间的反向传播(BPTT)[20]然而,通过时间计算误差导数是困难的[21]这主要是由于参数和动态之间的关系<span RNN的id=40>,这是非常不稳定的,使GD无效。随着依赖关系持续时间的增加,基于依赖关系的算法很难捕获依赖关系[4]。 损失函数关于权重的导数仅考虑当前输出与相应目标之间的距离,而不使用历史信息进行权重更新[22]。 RNN无法学习长距离时态
4
表II:比较主要梯度下降(GD)方法,其中N是网络中的节点数,O(·)是每个数据点。更多详细信息请参阅[14].
|
|
|
|
|
RTRL |
|
|
|
|
BPTT |
|
|
|
|
FFP |
|
|
|
|
GF |
|
|
|
|
BU |
|
|
|
|
yt |
dL dL dL
dh1dhtdh+1
dht+1 dht
xt- 1 |
时间
图3:随着网络随着时间的推移接收新的输入,单元的灵敏度会衰减(层中较浅的阴影),并且通过时间的反向传播(BPTT)会覆盖隐藏单元中的激活。这导致忘记早期访问的输入。
GD用于训练时的依赖性[4]这是由于梯度的指数衰减,因为它是通过时间反向传播的,这被称为消失梯度问题。在另一种偶然的情况下,反向传播的梯度可以指数地爆破,这增加了梯度的方差,并导致非常不稳定的学习情况,称为梯度爆炸问题[5]这些挑战在本节中讨论。主要GD方法的比较见表II,基于梯度的优化算法概述见[18].
1)通过时间的反向传播(BPTT):BPTT是
前馈网络反向传播的推广。用于学习RNN的标准BPTT方法及时“展开”网络,并通过时间向后传播错误信号。通过将图1B中的网络参数视为集合θ ={WHH,WIH,WHO,BH,B,BO},并且ht作为网络在时间t的隐藏状态,我们可以<span id=65>将梯度写成
(10)
其中,在时间t处损失函数梯度的展开为:
(11)
哪里
(12)
我们可以考虑Eq。作为等式(1)中的隐藏状态参数的雅可比矩阵,
其中f(·)是函数f(·)的逐元素导数,diag(·)是对角矩阵。
我们通常可以识别隐藏状态s随时间在网络中的长期和短期贡献。长期依赖性指的是输入和对应的隐藏状态在时间k <<t的贡献,而短期依赖性指的是其他时间[19]图3显示,随着网络随着时间的推移而进展,输入x1在</s的贡献pan>离散时间t−1通过时间消失到时间步长t +1(层中的深灰色变为更高的灰色)。另一方面,损失函数值Lt+1相对于时间t+1处的隐藏状态ht+1的贡献
在BPTT中的时间步长要比过去长得多。
2)消失梯度问题根据文献,可以通过使用强非线性来捕获真实的世界中的数据的复杂模式[6]然而,这可能导致RNN遭受消失梯度问题[4]这个问题指的是指数</span>当它们通过时间传播回来时,梯度幅度的收缩。这种现象导致网络的记忆忽略长期依赖性,并且几乎不学习时间上遥远的事件之间的相关性B。有两个原因:
1)标准的非线性函数,如sigmoid函数,其梯度几乎处处接近于零;
2)梯度的大小一遍又一遍地乘以
5
递归矩阵,因为它是通过时间反向传播。在这种情况下,当非递归矩阵的特征值小于1时,梯度迅速收敛到零。这通常发生在5-10步的反向传播[6].
在长序列上训练RNN时(例如,100个时间步),当权重较小时,梯度会收缩。一组真实的数的乘积可以分别收缩/爆炸为零/无穷大。对于基质,存在相同的类比,但是收缩/爆炸沿着沿着一些直接离子发生。文[19]证明了当ρ为递归权矩阵WHH的谱半径时,在ρ>1处,长期分量必随t→∞爆炸。 可以使用奇异值将其推广到非
||≤γ。||≤γ. (十四)
使用等式(13)雅可比矩阵
|| ∂hk+1 T · ′
卡宾枪
我们可以考虑||
我们可以得到损失函数分量
||
( )|| ≤ δt-k || || . (16)
这个方程表明,随着t-k变大,长期依赖性趋向于零,瓦尼问题发生。最后,我们可以看到,梯度消失问题出现的充分条件是递归权重矩阵W HH的最大奇异值(即,,λ1)
萨蒂斯λ1%3C
3)爆炸梯度问题:使用BPTT训练RNN的主要问题之一是爆炸梯度问题[4]随着权重变得更大,并且<span>的数量增加,在长序列上训练RNN的过程中可能会爆炸 id=43>训练期间的梯度大大增加。正如[19]中所述,这种情况发生的必要条件是λ1>
为了克服爆炸梯度问题,最近提出了许多方法。2012年,Mikolov提出了一种梯度模裁剪方法,以避免在大型数据集上使用BPTT和SGD等简单工具训练RNN时出现梯度爆炸问题[23],[24]在类似的方法中,Pascanu通过引入</spa提出了一种与Mikolov几乎相似的方法n>作为用于对梯度进行范数裁剪的阈值的超参数[19]。 这个参数可以由算法来设定,但是训练过程不是很敏感
并且对于相当小的阈值表现良好。
4)随机梯度下降:SGD(也称为在线GD)是GD的推广,广泛用于机器学习应用[12]SGD是鲁棒的,可扩展的,并且在许多不同的领域都表现良好,从光滑和强凸问题<span id=40>到复杂的非凸目标。 尽管GD中有冗余计算,
L(θt)
图4.经典动量和Nesterov加速梯度格式。
SGD每次执行一次更新[25]对于输入-目标对{xk,z},其中k∈{1,.,U},θ中的参数根据下式更新:
θt+1 = θt − λ ∂Lk (17)
这种频繁的更新导致损失函数输出的波动,这有助于SGD探索具有更高多样性的问题景观,希望找到更好的局部最小值。自适应学习率可以控制SGD的收敛,使得随着学习率的降低,探索减少而利用增加。它可以更快地收敛到局部最小值。加速SGD的经典技术是使用动量,其在跨迭代朝向目标的持续减少的方向上累积速度向量[26]。动量的经典版本适用于时间<span的损失函数L。 id = 88 t与A . A . A设置 。of parametersθA . A .
v . v+1=v . v- -λ = λ = λL .( )) ( 18 )
其中,μ L(·)是损失函数的梯度,μ∈[0,1]是动量系数[9],[12]如图4a所示,θ中的参数更新为
θt+1= θ+v+1。(十九)
The Nesterov accelerated gradient (NAG) is a first-order optimization method that provides more efficient convergence rate for particular situations (e.g., convex functions with de- terministic gradient) than the GD [27]. The main difference between NAG and GD is in the updating rule of the velocity vector v, as presented in Figure 4b, defined as 重试 错误原因
v . v+1 。=v . v- -λ = λ = λL .( + )v . v)( 20 )
在 哪里 ? 在 哪里 ?The The参数 in 参数 in 参数θAre更新 的 版本使用 usingEq .. ( 19 ). 由 . .ReasonableVigne-Tuningof of of ofThe The动量 ( moment )Coefµ它 是 一 个是 的 , 是 的 。possibleto增加 的 人数The The优化 优化 ( Optimization )per .formance[ 9 ] 。.
5)小批量梯度洗脱:小批量GD组分
设置一批训练数据的梯度,其中有多个训练样本。典型的小批量为50≤B≤256,但可以根据不同的应用而变化。喂养
6
小批量的训练样本加速了GD,并且适合于图形处理单元(GPU)上的处理负载分布。更新规则在B示例之后修改参数,而不需要等待扫描所有示例,例如
θ= θt-1-
由于基于GD的算法通常依赖于梯度的瞬时估计,因此它们对于时间序列数据[22]是缓慢的,并且对于n个非凸函数[28]的优化是无效的。=42>速率,这通常是棘手的并且取决于应用。
SGD比GD快得多,可用于跟踪更新。 然而,由于mini-batchGD更容易并行化,并且可以利用矢量化实现,因此它的性能明显优于GD和SGD[25]与SGD相比,良好的矢量化甚至可以导致更快的结果。此外,非随机初始化方案,例如逐层预训练,可以帮助更快地
6)Adam随机优化:自适应矩估计(Adam)是一种基于一阶矩的优化算法,它使用低阶矩的估计来优化随机目标函数[31]它需要初始化一阶矩向量m0和<span id=41>二阶矩矢量
时间戳为0时的v 0。se向量更新为
m+1= β1m+(1 - β1)g+1(22)
和
v+1= β2v+(1 - β2)g+1,(23)
其中gt+1是损失函数的梯度。矩估计值的指数衰减率建议为β1=0.9和β2=0.999[31]一阶矩和二阶矩估计值的偏倚校正为
t+1=t+1=v/(1 -β+1),(24)
和
t+1=v/(1 - β+1)。(二十五)
然后,参数更新为
θt+1= θt-
其中,n = 10-8。亚当算法实现起来相对简单,适用于非常大的数据集[31]。.
C.基于扩展卡尔曼滤波器的学习
卡尔曼滤波是一种基于随时间观察到的一系列测量值来预测系统未来状态的方法,该方法使用贝叶斯推断并估计每个时间步长的变量的联合概率分布[32]扩展卡尔曼滤波(EKF)是非线性版本的卡尔曼滤波器它放宽了状态转移和观测模型的线性前提条件。然而,它们可能反而需要是可微函数。 EKF训练RNN
假设权重的最佳设置是平稳的[22],[33]与反向传播相比,EKF帮助RNN更快地达到非平稳过程的训练稳态。 它可以在有限数据的训练中优于反向传播算法[15]类似于SGD,它可以在线方式用输入数据训练RNN[33].
EKF的一个更有效的版本是解耦EKF(DEKF)方法,它忽略了互斥的权重组的相互依赖性[32]这种技术可以降低计算复杂度和每个训练实例所需的存储。解耦的扩展卡尔曼滤波器(DEKF)将扩展卡尔曼滤波器独立地应用于每个神经元,以估计馈送它的最佳权重。 训练过程被建模为最优滤波问题。它递归而有效地计算最小二乘问题的解决方案,以最小化数据和曲线之间的平均距离为给定数据集找到最佳拟合曲线。在时间步t,所有提供给网络的信息直到时间t被使用,包括自学习过程s的第一次迭代以来计算的所有导数。然而,计算只需要上一步的结果,不需要存储该步骤之后的结果[22]。在RNN中基于卡尔曼的模型在计算上是昂贵的,并且在过去几年中很少受到关注。
D.二阶优化
二阶优化算法利用函数的二阶导数信息。假设具有良好的二阶展开逼近的二次函数,牛顿方法可以通过向全局最小值移动而比GD执行得更好、更快[34]这是因为GD中的优化方向是逆梯度的,并且在鞍点附近陷入困境</span>点或局部极值。基于GD的模型的另一个挑战是学习率的设置,这通常是棘手的,并且依赖于应用程序。然而,二阶方法通常需要计算Hessian矩阵和Hessian矩阵的逆,与GD方法相比,这在RNN中是一项困难的任务。
一般递归贝叶斯Levenberg-Marquardt算法可以在RNN的递归二阶训练中顺序更新权重和Hessian矩阵[35]这种方法优于RNN的标准实时递归学习和EKF训练算法[35]计算Hessian矩阵的挑战<span id=38>时间序列通过引入Hessian自由(HF)优化来解决[34].
E. 无Hessian优化
一个设计良好且初始化良好的HF优化器可以很好地优化非凸函数,例如训练深度神经网络的目标函数,给定合理的随机初始化[34]由于RNN在时间上共享权重,HF优化器应该是a<span id=40>良好的优化候选[5]通过HF优化训练RNN
7
可以减少由基于梯度的优化引起的训练困难艾德[36]通常,HF和截断牛顿方法在每个更新步骤之前计算Hessian矩阵的新估计,并且可以考虑曲线的突然变化[19]。 HF优化目标实值光滑目标函数的无约束最小化[28]与标准牛顿方法一样,它使用局部二次逼近来生成更新建议。它属于广泛的近似牛顿方法,适用于非常高维的问题,例如大型神经网络的训练目标[28]。.
通过向HF优化器添加新的阻尼机制,优化器能够在已知不可能使用GD学习的病理合成数据集上训练RNN[28]。 乘法RNN(MRNN)使用乘法(也称为“门控”)连接来允许当前输入字符确定从一个隐藏状态向量到下一个隐藏状态向量的转换矩阵[5]。 该方法通过将其应用于预测文本流中的下一个字符的任务,展示了使用该优化器训练的大型RNN的强大功能[5],[12].
HF优化器可以与现有预训练方法结合使用或作为现有预训练方法的替代方案,并且适用性更广泛,因为它依赖于更少的关于网络特定结构的假设。 HF优化在大的小批量上运行,并且能够检测权重空间中具有非常小的梯度但甚至更小的曲率的有希望的方向。 通过使用带有动量的SGD并将权重初始化为接近于零的小值,已经实现了类似的结果[9]。.
F. 全局优化
一般来说,进化计算方法初始化搜索代理的群体,并使其进化以找到局部/全局优化解[37]这些方法可以解决广泛的优化问题,包括多峰,病态,高维,凸和非凸问题。然而,进化算法在RNN优化中存在一些缺点,包括陷入局部极小值/极大值,收敛速度慢,网络停滞。
RNN中参数的优化可以被建模为一个非线性全局优化问题。用于训练RNN的最常见的全局优化方法是遗传算法[38]。 基于Alopex的进化算法(AEA)使用个体权重变化与全局误差度量变化之间的局部相关性,并仅使用局部计算同时更新网络中的所有权重[39]。 为特定应用选择最佳的神经网络拓扑结构与优化网络参数是不同的任务。在[40]中提出了一种混合多目标进化算法,用于训练和优化用于时间序列预测的RNN的结构。一些模型同时获得递归网络的结构和权重[38]。自适应进化策略(CMA-ES)是一种全局优化的参数整定方法
关于RNN的全局优化方法的已发表文献分散,并且没有受到研究界的太多关注。这一不足主要是由于这些方法的计算复杂性。然而,以低计算复杂度方式的此类方法的多代理哲学,例如具有小群体大小的模型[42],可能会导致比SGD好得多的性能。
四. REucurénEuroNetworksARchitectures
本节旨在概述RNN的不同架构,并讨论这些模型之间的细微差别。
A. 具有多层感知器的深度RNN
神经网络的深层架构可以表示比浅层架构莫尔有效的函数。虽然递归网络在时间上是固有的深度,因为每个隐藏状态是所有先前隐藏状态的函数[43],但已经表明内部计算实际上相当浅[44]。在[44]中,有人认为在RNN的过渡阶段添加一个或多个非线性层可以通过更好地分解原始输入的潜在变化来提高整体性能。 具有感知器层的RNN中的深层结构可以分为三类:
输入到隐藏,隐藏到隐藏,隐藏n到输出[44].
1)深度输入到隐藏:基本思想之一是将多层感知器(MLP)的结构引入过渡和输出阶段,分别称为深度过渡RNN和深度输出RNN。为此,可以引入两个操作符。 第一个是加法运算器,它接收两个向量,输入向量x和隐藏状态h,并返回一个摘要,
′
h =xh。(二十七)
该运算符等价于Eq。(1)另一个算子是表示为Eq的预测器,其等价于Eq。(3)并预测给定摘要h的输出为
y=0.01h。(二十八)
输入数据的高级表示意味着更容易表示数据的时态结构之间的关系。这种技术已经取得了比在语音识别[43]和单词嵌入[45]应用中向网络提供原始数据更好的结果。在输入中具有MLP的RNN结构隐藏层如图5a所示。为了增强长期依赖性,额外的连接在输入层和隐藏层之间建立了一条捷径,如
2)深度隐藏到隐藏和输出:深度RNN的重点是隐藏层。在该级别中,来自先前数据抽象和新输入的数据抽象和/或隐藏状态构造的过程是高度非线性的。 MLP可以对这种非线性函数进行建模,这有助于RNN快速适应快速变化的输入模式,同时仍然具有对过去事件的良好记忆。一个MLP之前,
8
图5:一些具有多层感知器(MLP)的深度递归神经网络(RNN)架构。
图6:通过时间展开的双向递归神经网络(BRNN)。
输出层(图5c中给出了一个示例)[44]深度隐藏到输出函数可以解开隐藏状态中的变化因素,并促进对目标的预测。该函数都具有网络的更紧凑的隐藏状态,这可能导致先前输入的更有信息量的历史摘要。
3)隐藏状态堆栈:构建深度RNN的另一种方法是拥有一个隐藏递归层堆栈,如图5d所示。这种类型的递归水平鼓励网络在不同的时间尺度上运行,并使其能够处理输入序列的多个时间尺度[44]然而,连续隐藏状态之间的转换通常是浅的,这导致</span>它可以表示的有限的函数族[44]因此,这个函数不能作为一个通用的近似,除非高层有反馈到低层。
虽然为了利用深度网络的贝内而增强RNN已经证明可以产生性能改进,但它也表明会引入潜在的问题。通过向网络过渡阶段添加非线性层,现在存在梯度必须通过其返回的附加层。这可能会导致梯度消失和爆炸等问题,导致网络无法充分捕获长期依赖关系[44]在RNN的过渡阶段添加非线性层也可以显着增加RNN的性能。降低了网络的计算速度。额外的层会显著增加网络的训练时间,必须在每次训练迭代时展开,因此不能并行化。
(0,0)
x2
图图7:二维递归神经网络(RNN)中的前向传递序列排序。隐藏层平面内的连接是循环的。沿着x1和x2的线显示了从左上角开始的扫描带,沿该扫描带沿着观察先前的点。
B。双向RNN
传统的RNN只考虑数据的先前上下文进行训练。虽然在语音识别等许多应用中,简单地查看先前的上下文就足够了,但探索未来的上下文也很有用[43]。pan>将输出延迟一定数量的时间帧。然而,这种方法需要为任何实现选择handpicked最佳延迟。双向RNN(BRNN)考虑过去和未来的所有可用输入序列来估计输出向量[46]为此,一个RNN在前向时间方向上从开始到结束处理序列。另一个RNN在负时间方向上从结束到开始向后处理序列,如图6所示。前向状态的输出不连接到后向状态的输入,反之亦然,两种状态神经元之间没有相互作用[46]。.
在图6中,向前和向后隐藏序列为→ ←
分别由h和h表示,在时间tT,前向隐藏序列被计算为
→ →
h= fH(W
其中它在t =(1,...,T)后向层是←←
h= fH(W
其在t=(T,...,①的人。在时间t的输出序列yt是
→ ←
y= Wh+Wh+Bo。(三十一)
BPTT是训练BRNN的一种选择。然而,向前和向后传递过程稍微复杂一些,因为状态和输出神经元的更新不再一次一个地进行[46]。 虽然简单的RNN受到导致当前时间的输入的约束,但BRNN通过使用过去和未来信息来扩展此模型。然而,BRNN的缺点是它们需要提前知道输入序列的开始和结束。 一个例子是通过音素标记口语句子[46].
C. 递归卷积神经网络
RNN的流行可以归因于它对序列数据建模的能力。以前检查过的型号
9
已经增强了简单RNN的底层结构,以提高其在学习一维序列的上下文依赖性方面的性能。然而,存在一些问题,这需要理解上下文依赖多个维度。 最流行的网络架构使用卷积神经网络(CNN)来解决这些问题。
CNN是机器视觉应用中非常流行的模型。CNN可以由多个卷积层组成,可选地在中间具有池化层,然后是完全连接的感知器层[11]。 典型的CNN通过使用卷积层来学习,以使用每层中的共享权重来提取特征。特征池化层(即,子采样)通过降低中间表示(即,特征图)以及输出对偏移和失真的敏感性。在最后一个卷积层提取的特征被馈送到全连接感知器模式l,用于特征的降维和分类。
将递归连接合并到每个卷积层中可以形成递归卷积神经网络(RCNN)[47] RCNN中单元的激活随着时间的推移而演变,因为它们依赖于相邻单元。这种方法可以集成的上下文信息,重要的对象识别任务。该方法通过层与层之间的权值共享,在保持参数个数不变的情况下,增加了模型的深度。使用从输出到隐藏层输入的递归连接允许网络对标签依赖性进行建模,并根据其先前的输出平滑自己的输出[48]这种RCNN方法允许将大输入上下文馈送到网络,而<span id=95>限制模型的容量。该系统能够以较低的推理代价对复杂的空间依赖关系进行建模。 随着上下文大小随着内置递归的增加而增加,系统会识别并纠正自己的错误[48]四向二维RNN可以增强CNN对长距离空间依赖性的建模[49]。 这种方法有效地将全局空间上下文嵌入到紧凑的局部表示中[49].
D. 多维递归神经网络
多维递归神经网络
是RNN对高维序列学习的另一种实现。该网络利用每个维度的循环连接来学习数据中的相关性。MDRNN是有向无环图RNN[50]的特殊情况,通过用D维网格[51]替换网络更新的一维链来推广到多维数据。 在这种方法中,单个递归连接被替换为大小为D的递归连接。图7中给出了一个二维示例。在每个时间步的向前传递过程中,隐藏层接收外部输入以及从沿着所有维度后退一步的自身激活。 在每个时间步的输入和先前隐藏层激活的组合以输入序列的顺序馈送。然后,网络存储产生的隐藏层激活[52]。MDRNN的误差梯度可以用BPTT计算。 与一维BPTT一样,
以前向传递的相反顺序ER处理该序列。在每个时步,隐藏层接收输出误差导数和它自己的未来导数[52]。.
RNN具有适合多维域的属性,例如对扭曲的鲁棒性和上下文的灵活使用。 此外,RNN还可以利用图像分析和视频处理中的固有序列模式,这些模式通常被其他阿尔奇忽略[53]然而,当试图对多维序列建模时,内存使用可能会成为一个重要的问题。随着网络中更多的重复连接增加,网络必须保存的保存状态的数量也增加。如果网络中有大量保存的状态,这可能会导致巨大的内存需求。MDRNN也成为消失梯度的牺牲品,并且可能无法沿着沿着所有维度学习长期顺序信息。虽然MDRNN的应用与RCNN一致,但还没有对这两种模型进行任何比较研究。
E. 长短期记忆
循环连接可以通过利用它们理解顺序依赖关系的能力来提高神经网络的性能。然而,从回流连接产生的记忆可能受到用于训练RNN的算法的严重限制。到目前为止,所有的模型都成为训练阶段梯度爆炸或消失的牺牲品,导致网络无法学习数据中的长期顺序依赖关系。以下模型是专门为解决这个问题而设计的,最流行的是长短期记忆(LSTM)RNN。
LSTM是减少消失和爆炸梯度影响的最流行和最有效的方法之一[54]这种方法将隐藏单元的结构从“sigmoid”或“tanh”改变为记忆单元,其中它们的输入和输出由门控制。这些门控制信息流到隐藏的神经元,并保留从以前的时间步提取的特征[21],[54].
结果表明,对于连续的s序列,LSTM模型的内部值可以无限增长[55]。即使连续序列具有自然重复的特性,网络也无法检测出哪些信息不再相关。 遗忘门学习控制存储在存储单元中的值衰减的速率的权重[55]对于输入和输出门关闭并且遗忘门不引起衰减的时段,存储单元简单地随时间保持其值,使得</span>在这些时间段内,误差的梯度在反向传播期间保持恒定[21]这种结构允许网络潜在地记住更长时间的信息。
LSTM在隐藏层中具有高复杂性。 对于相同大小的隐藏层,一个典型的LSTM比一个简单的RNN有大约四倍多的参数[6]提出LSTM方法的目的是引入一个可以改善学习长程依赖关系的方案,而不是找到最小或最优的参数。span>方案[21]与简单的LSTM相比,多维和网格LSTM网络部分增强了对长期依赖关系的学习,这将在本节中讨论。
10
yt
输入ate |
xt / ht-1
图图8:带有一个cell的LSTM内存块。虚线表示时滞。
1)标准LSTM:一个典型的LSTM单元由输入组成,
忘记,输出门和单元激活组件,如图8所示。这些单元接收来自不同来源的激活信号,并通过设计的倍增器控制细胞的激活。 LSTM门可以防止网络的其余部分在多个时间步修改存储单元的内容。LSTM递归神经网络比普通的RNN更长时间地保存信号和传播错误。这些属性允许LSTM网络处理具有复杂和分离的相互依赖性的数据,并在一系列序列学习领域中表现出色。
LSTM的输入门定义为
g= σ(WIGx+WHgh1+Wggg1+Bg),(32)
其中WIGi是从输入层到输入门的权重矩阵,WHg是从隐藏状态到输入门的权重矩阵,Wggi是从单元激活到输入门的权重矩阵,并且Bgi是t输入门的偏置。遗忘之门被定义为
g= σ(WIGx+WHgh1+Wggg1+Bg),(33)
其中WIG是从输入层到遗忘门的权重矩阵,WHgf是从隐藏状态到遗忘门的权重矩阵,Wggf是从单元激活到遗忘门的权重矩阵,并且Bgf是<span id=42>的偏置”忘记门。单元门被定义为
g= gtanh(WIGxt+WHgch1+Bgc)+gg1,(34)
其中WIGc是从输入层到单元门的权重矩阵,WHgc是从隐藏状态到单元门的权重矩阵,并且Bgc是单元门的偏置。输出门定义为
g= σ(WIGx+WHgoh1+Wggg+Bgo),(35)
其中WIGo是从输入层到输出门的权重矩阵,WHgo是从隐藏状态到输出门的权重矩阵,Wggo是从单元激活到输出门的权重矩阵,并且Bgo是<span id=43>输出门的偏置。最后,将隐藏状态计算为
h=gtanh(g)。(三十六)
图图9:S-LSTM的一个例子,一个基于树结构的长短期记忆网络。树节点可以考虑来自多个后代的信息。其他白色节点的信息被屏蔽。每个箭头处的短线(-)表示一个信息块。
2)S-LSTM:虽然LSTM内部机制有助于网络学习更长的序列相关性,但它可能无法理解比序列更复杂的输入结构。S-LSTM模型旨在克服梯度消失问题,并从输入中学习长期依赖关系。 S-LSTM网络由S-LSTM存储块组成,并基于层次结构工作。一个典型的存储器块由输入和输出门组成。在图9所示的树结构中,多个后代单元在一段时间内的内存递归地反映在一个内存单元上。该方法通过考虑来自树上的长距离的信息(即,分支)到主体(即,根)。典型的S-LSTM具有“sigmoid”功能,因此,门控信号在[0,1]的范围内工作。图9显示了越靠近根的门受到梯度消失问题的影响越小(深色圆圈),而树的较低级别处的分支由于梯度消失而失去了它们的记忆(浅色圆圈)。 可以使用破折号关闭门以不接收来自较低分支的信号。
与递归和LSTM模型相比,S-LSTM方法可以实现竞争性的结果。它具有扩展到其他LSTM模型的潜力。然而,它的性能无法与其他最先进的LSTM模型进行比较。读者可以参考[56]了解有关S-LSTM的更多细节
记忆细胞
3)堆叠的LSTM:ANN中的深度思想也适用于LSTM,通过在空间中堆叠不同的隐藏层与LSTM单元来增加网络容量[43],
[57]第57段。使用等式(1)中的隐藏层的L个LSTM的堆栈中的隐藏层l被定义为:
h= fH(WIHh-1+WHHh1+B),(37)
其中隐藏向量序列h被计算在
时间t=(1,...,T)for=(1,.,L)初始隐藏向量序列使用输入序列h0=(x1,...,[43]网络的输出为:
y=f0(WHOh+B0)。(三十八)
在堆栈式LSTM中,堆栈指针可以确定LSTM中的哪个单元提供前一个单元的状态和优先级单元。
11
时间步长[58]。 在这样的受控结构中,不仅控制器可以在恒定时间内从堆栈顶部推送到dpop,而且LSTM可以保持堆栈内容的连续空间嵌入[58],[59].
堆叠LSTM与不同RNN结构的组合用于不同的应用需要研究。一个例子是堆叠LSTM与频率的组合
4)双向LSTM可以通过在称为深度双向LSTM(BLSTM)的空间中堆叠LSTM单元的隐藏层来增加BRNN的卡帕克容量[43]BLSTM网络比单向LSTM网络更强大[61]这些网络理论上</span>在计算过程中涉及输入序列的所有信息。BLSTM的分布式表示特性对于不同的应用(如语言理解)至关重要[62]BLSTM模型利用了双向RNN部分中讨论的相同优势,同时还克服了
消失梯度问题。
5)多维LSTM:经典的LSTM模型具有由单个遗忘门控制的单个自连接。它的激活被认为是一维LSTM。多维LSTM(MDLSTM)使用来自先前单元状态的互连来沿着每N个维度沿着扩展LSTM的存储器[52],[63]MDLSTM接收N维排列中的输入(例如,图像的两个维度)。隐藏状态向量(h1,.,hN)和记忆向量(m1,.,m,N)被馈送到阵列的每个输入端。内存向量定义为
m =
g ⊙ mj + g ⊙ g , (39)
其中,k是逐元素乘积,并且使用等式(32)至等式(34)计算门。(36)、[57].
空间LSTM是MDLSTM[64]的一个特例,它是一个用于图像建模的二维网格。该模型通过顺序阅读其小邻域中的像素来生成图像中特定像素的隐藏状态向量[64]。像素的状态通过将状态隐藏向量馈送到以下项的因式分解混合来生成:
条件高斯尺度混合(MCGSM)[64].
6)网格LSTM:随着网格大小和LSTM空间深度的增加,MDLSTM模型变得不稳定。网格LSTM模型通过改变输出内存向量的计算提供了一种解决方案。该方法针对多维数据的深度顺序计算。该模型将LSTM单元沿着输入数据的时空维度以及层之间连接起来。与MDLSTM模型不同,块计算N个变换并输出N个隐藏状态向量和N个存储器向量。 维度的隐藏状态向量为
h= LSTM(H,m,W,W,W,Wc),(40)
其中LSTM(·)是标准LSTM过程[57],H是输入隐藏状态向量的级联,定义为
H =[h1,.,hN]T. (四十一)
图10:时间时差分回流神经网络(dRNN)的架构输入门和遗忘门分别由时间-1和的DoS控制,[65].
二维网格LSTM网络将LSTM单元沿着空间维度添加到堆叠的LSTM。三维或更多维LSTM类似于MSLSTM,然而,已经沿着空间深度沿着添加了LSTM单元并且执行N路交互。网格LSTM的更多细节在[57]中提供。.
7)差分递归神经网络:当LSTM
在理解长期序列依赖性方面表现出了更好的学习能力,但有人认为,其门控机制无法全面区分序列中的显着和非显着信息[65]。因此,LSTM无法捕获任务中的时空动态模式,例如动作识别[65],其中序列通常可以包含许多非显着帧。差分递归神经网络(dRNN)涉及检测和捕获重要的时空序列以学习输入中的动作动态[65]dRNN中的LSTM门监控连续帧之间重要运动的信息增益的变化。通过计算隐藏状态s的导数(DoS),可以检测到信息的这种变化。一个大的拒绝服务揭示了行为状态的突然变化,这意味着时空结构包含信息动力学。在这种情况下,图10中的门允许信息流更新定义为
s=g⊙s1+g⊙s1/2(42)
哪里
s1/2= tanh(Whsht-1+WxsX+Bs)。(四十三)
DoSds/d量化了每个时间t的信息变化。小的DoS使存储单元远离输入的任何影响。更具体地说,该单元控制输入门,
g=σ(Σr
(44)
遗忘门单元作为
g=σ(Σr
(45)
输出门单元为
g=σ(Σr
12
表III:主要长短期记忆(LSTM)架构之间的比较。
|
|
|
LSTM |
|
|
S-LSTM |
|
|
Stacked LSTM |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
其中,DoS具有R的上限。BPTT可以训练dRNN。与简单的LSTM相比,1阶和2阶dRNN具有更好的训练性能;
然而,它具有额外计算复杂度。
8)其他LSTM模型局部-全局LSTM(LG-LSTM)架构最初是为语义对象解析而提出的[66],其目标是提高复杂局部(像素邻域)和全局(整个图像)上下文的利用率。关于图像的每个位置的实际信息。当前版本的LG-LSTM已经将LSTM层的堆栈添加到中间卷积层。 这种技术直接增强了视觉特征,并允许对网络参数进行端到端学习[66]LG-LSTM与各种CNN模型的性能比较显示出高精度性能[66]。预计该模型可以通过用LG-LSTM层替换所有卷积层来实现更大的成功。
匹配LSTM(mLSTM)最初是为了自然语言推理而提出的。匹配机制存储(记住)最终预测的关键结果,并忘记不太重要的匹配[62]。 mLSTM的最后一个隐藏状态有助于预测前提和假设之间的关系。 与其他方法的不同之处在于,mLSTM不是将前提和假设嵌入整个句子,而是将假设与前提进行逐字匹配[62].
RNN在时间和频率上的递归,称为F-T-LSTM,在[67]中提出。该模型通过使用频率LSTM扫描f个频带来生成频谱信息的总和玛丽。 然后,它将输出层的激活作为LSTM的输入。频率LSTM的公式类似于时间LSTM[67]在降水临近预报的输入到状态和状态到状态转换中具有卷积结构的卷积LSTM(ConvLSTM)模型在[68]中提出。/span>多个ConvLSTM层来构建
图11:门控递归单元GRU)。更新门z决定是否要用新的隐藏状态h更新隐藏状态。复位门控制是否需要忽略先前的隐藏状态。
一个端到端的可训练模型[68]。表III中提供了主要LSTM模型之间的比较。
F. Gated Recurrent Unit
虽然LSTM已经被证明是避免梯度消失或爆炸的可行选择,但是它们在其架构中给定多个存储器单元时具有更高的存储器要求。递归单元自适应地捕获门控递归单元(GRU)中不同时间尺度的依赖关系[69]类似于LSTM单元,GRU具有门控单元,可以调节单元内部的信息流,但没有<sp其具有分离的存储器单元。与LSTM相比,GRU在每个时间步暴露整个状态[70],并计算现有状态和新计算的状态之间的线性和。GRU的框图如图11所示。GRU中的激活被线性建模为
~
h=(1 -z)h1+zh,(47)
其中更新门zt控制激活的更新瓦尔ue,定义为
z= σ(Wzx+Uzh1),(48)
13
其中W和U是要学习的权重矩阵。候选激活是
t
= tanh(Whx+Uh(rh1)),(49)
其中rt是一组休息门,定义为
r= σ(Wx+Uh1)(50)
其允许单元通过阅读输入序列的第一个符号来忘记先前的状态。GRU网络和LSTM网络之间的一些相似之处和差异在[69]中概述,研究发现,两个模型仅在某些测试中表现得比另一个更好,这表明无法建议哪个模型更好。
G. 记忆网络
传统的RNN具有较小的内存大小来存储来自过去输入的特征[71],[72]。记忆神经网络(MemNN)利用成功的学习方法进行推理,具有可读和可写的记忆组件。 MemNN是一个对象数组,由输入、响应、生成和输出特征映射组件组成[71],[73]它将输入转换为内部特征表示,然后根据新输入更新记忆。然后,它使用输入和更新的存储器来计算输出特征并对其进行解码以产生输出[71]该网络不容易使用BPTT进行训练,并且需要在每一层进行监督[74]MemNN的版本是端到端MemNN,其可以从输入-输出对端到端地训练[74]。 它在若干时间步后生成输出,中间步骤使用存储器输入/输出操作来更新内部状态[74]。.
递归记忆网络(RMN)利用了LSTM和MemNN[75]。RMN中的内存块获取LSTM的隐藏状态,并使用注意力机制将其与最近的输入进行比较。RMN算法分析训练模型的注意力权重,并随着时间的推移从LSTM中保留的信息中提取知识[75]。该模型是为语言建模而开发的,并在三个大型数据集上进行了测试艾德。结果表明,该算法的性能与LSTM模型相比,然而,该模型继承了LSTM和RMN的复杂性,需要进一步开发。
情景记忆是从语义和情景记忆中获得灵感的,这对于大脑中的复杂推理是必要的[73]。 情景记忆被称为动态记忆网络框架的记忆,它记住自传体细节[73]。这种记忆指的是对所存储的经验事实的一般化表征。事实是从以问题为条件的输入中检索出来的。通过对事实的推理,这导致了最终的陈述。该模块对事实执行多次传递,同时关注不同的事实。 每个通道的输出被称为一个片段,它被汇总到内存中[73]。与MemNN相关的工作是动态记忆网络(DMN)。 MemNN中添加的内存组件可以提高其学习长期依赖关系的性能[71]这种方法已经显示出自然语言问答的性能
st
xt
图图12:具有上下文特征的递归神经网络(长记忆)。
应用[73] MemNN的泛化和输出特征图部分与DMS中的情景记忆具有一些类似的功能。MemNN独立处理句子[73],而DMS通过序列模型处理句子[73]FacebookbAbI数据集上的性能结果显示,DMN通过18个任务,准确率超过95%,而MemNN通过16个任务准确度较低[73]情景记忆的几个步骤在[73]中讨论.
H.结构约束递归神经网络
另一种处理消失梯度问题的模型是结构约束递归神经网络(SCRN)。该网络B对隐藏状态在训练过程中快速变化的观察,如图12所示。[6]在这种方法中,通过添加一个特定的递归矩阵来扩展SCRN结构,该矩阵等于识别长期依赖性。全连接的递归矩阵(称为隐藏层)产生一组快速变化的隐藏单元,而对角矩阵(称为上下文层)支持上下文单元状态的缓慢变化[6]。=96>由外部输入供电。 虽然这个模型可以防止递归矩阵货车的梯度,但它在训练中并不有效[6]。在这个模型中,对于大小为d的字典,t是上下文单元的状态,定义为
s=(1α)Bx+ αs1,(51)
其中α是上下文层权重,通常设置为0。95,Bd×s是上下文嵌入矩阵,x是输入。隐藏层定义为
h= σ(Ps+Ax+Rh1),(52)
其中Ad×m是token嵌入矩阵,Pp×m是隐藏层和上下文层之间的连接矩阵,Rm×m是隐藏层h1权重矩阵,σ(·)是“sigmoid”激活函数。最后,输出yt定义为:
y= f(Uh+Vs),(53)
其中f是“softmax”激活函数,U和V分别是隐藏层和上下文层的输出权重矩阵。
使用自适应上下文特征进行分析,其中为每个单元学习上下文层的权重以捕获上下文
14
表IV:主要递归神经网络(RNN)架构之间的比较。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Recurrent Unit |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
RNN |
|
|
从不同的时间延迟,表明学习的自回归权重似乎并不重要,只要一个也使用标准的隐藏层的模型。这是在将上下文层的权重固定为常数的同时,迫使隐藏单元在同一时间尺度上捕获信息。在PennTreebank数据集上对SCRN模型进行了评估。[6]中给出的结果表明,与[3]中提出的模型相比,SCRN方法具有更大的增益。此外,学习更长记忆模型声称它具有类似的性能,但<span id=91>与LSTM模型相比,复杂性更低[6].
虽然将简单约束添加到矩阵导致与其门控对应物相比计算量更低,但该模型在训练中效率不高。对使用自适应上下文特征的分析表明,只要还使用标准隐藏层,则自循环权重的学习似乎并不重要,其中对于每个单元学习上下文层的权重以从不同的时间延迟捕获上下文。/span>在模型[6]中,因此,将上下文层的权重固定为常数迫使隐藏单元在相同的时间尺度上捕获信息。
I.酉递归神经网络
缓解消失和扩张梯度问题的一种简单方法是在RNN中简单地使用酉矩阵。 消失或爆炸梯度的问题可以归因于隐藏到隐藏权重矩阵的特征值,偏离1[76]因此,为了防止这些
由偏差得到的特征值,可以用酉矩阵代替网络中的一般矩阵。
酉矩阵是复数域中的正交矩阵[76]它们的绝对特征值正好为1,这保持了向量流的范数和梯度在更长的时间步长中传播。这导致防止出现消失或爆炸的梯度问题[77]然而,有人认为,在没有任何消失的情况下反向传播门梯度的能力可能导致输出同等地依赖于所有输入,而不考虑</p>。span>时差[77]。这也导致网络由于存储冗余信息而浪费内存。
酉RNN与以前的架构相比具有显著的优势,这些架构试图解决消失梯度问题。单一RNN架构保持了普通RNN的内部工作,而不增加任何额外的内存需求。此外,通过保持相同的架构,酉RNN不会显著增加计算成本。
J.门控正交递归单元
到目前为止,RNN的实现已经采取了两种不同的方法来解决探索和消失梯度的问题。第一个是实现额外的门来提高系统的内存,就像LSTM和GRU架构一样。第二种方法是利用酉矩阵来保持特征值为1的绝对值。
15
门控正交递归单元用正交矩阵替换隐藏状态循环矩阵,并引入ReLU激活函数的增强,这允许它处理复值输入[77]该单元能够使用酉矩阵捕获数据的长期依赖性,而</span>还利用了GRU结构中存在的遗忘机制[77].
K.递阶次采样递归神经网络
研究表明,RNN特别难以学习长序列。虽然以前的架构旨在改变网络的机制以更好地学习长期依赖关系,但存在一种更简单的解决方案,即使用子采样等方法缩短序列。分层子采样递归神经网络(HSRNN)旨在通过使用固定的窗口大小在每个级别执行子采样来更好地学习大序列[78]训练该网络遵循与训练常规RNN相同的过程,基于每个级别的窗口大小进行一些修改.
HSRNN可以通过简单地用多维窗口替换子采样窗口来扩展到多维网络[78]在多维HSRNN中,每个级别由两个在两个独立方向上扫描的递归层组成,其间有一个前馈层。然而,在减少的序列的大小,HSRNN变得不太稳健的顺序失真。 与其他RNN模型相比,这需要对网络进行大量的调整,因为最佳窗口大小取决于任务[78]HSRNN已被证明是学习长序列的可行选择,因为与它们的同行相比,它们的计算成本较低。RNN,无论其内部结构如何,都会在序列的每个时间段被激活。 这可能会导致网络学习长序列信息的计算成本极高[78]此外,信息可能会广泛分散在长序列中,从而使相互依赖性更难发现。 表IV中提供了主要RNN架构之间的比较。
五、实现欧洲网络的均衡化
正则化是指通过添加或删除信息来控制神经网络的容量,以防止过度拟合。为了更好地训练RNN,一部分可用数据被认为是验证数据集。验证集用于观察训练过程,并防止网络欠拟合和过拟合[79]过拟合是指训练损失和验证损失(包括测试损失)之间的差距,<span id=64>随着训练损失的减少,该值在多个训练时期后增加,如图13所示。RNN r的成功训练需要良好的正则化[80]。本节旨在介绍训练RNN的常见正则化方法。
A. l1和l2
L1正则化和L2正则化方法在损失函数中加入正则化项,以确定某个参数
测试
△2> △1
火车
时代
图13:训练神经网络时的过度拟合。为了避免过度拟合,可以在“最佳性能”时期提前停止训练,此时训练损失正在减少,但验证损失开始增加。
配置,并防止系数拟合得如此完美以至于过拟合。方程中的损失函数(8)增加正则化项,
L(y,z)=L(y,z)+ ηⅡθⅡ,(54)
其中θ是网络参数(权重)的集合,η控制正则化参数的相对重要性,并且
ⅡθⅡp =
1/p . (55)
如果p=1,则正则化子为L1,如果p=2,则正则化子为L2。L1是权重之和,L2是权重s的平方和。
B。辍学
一般来说,dropout在训练过程中随机忽略了网络两层之间的一部分连接。
例如,对于等式中的隐藏层输出,(1)我们有h=kh,(56)
其中k是二进制向量或掩码,并且k是逐元素乘积[81]掩码也可以在应用撤回时遵循统计模式。在测试过程中,所有单元都被保留,它们的激活可能会被加权。
在[82]中引入了一种专门针对RNN的dropout,称为RNNDrop。该方法在每个训练序列的开始处生成单个dropout掩码,并在序列的持续时间内对其进行调整。这允许网络连接随时间保持恒定。RNN的dropout的其他实现建议简单地丢弃网络的先前隐藏状态。在[83]中引入了一个与RNNDrop类似的模型,其中它不是dropout,而是在每个步骤的每个输入序列中屏蔽数据样本。这个小的调整具有与RNNDrop竞争的性能。
C. 活化稳定
最近提出的另一种正则化方法涉及稳定RNN的激活[84]
16
t t
+1时间
图图14:应用于RNN中前馈连接的Dropout。循环连接用实线示出为全连接。隐藏单元和输出单元之间的连接以虚线示出。隐藏单元和输出单元之间的断开连接用虚线表示.
稳定器是损失函数的附加成本项,定义为
其中ht和h1分别是时间t和t-1处隐藏激活的向量,β控制正则化的相对重要性。当推广长期序列时,这个附加项稳定了隐藏向量的范数。
已经进行了其他实现来稳定隐藏到隐藏的转换矩阵,例如使用正交矩阵,然而,输入和非线性仍然可以影响激活方法的稳定性。语言建模和音素识别的实验显示了这种方法的艺术性能[84].
D. 隐藏激活P保留
zoneout方法是dropout的一个非常特殊的情况。它迫使一些单位保持它们在前一个时间步的激活(即,h=h1)[85]。 这种方法将随机性(通过添加噪声)注入到网络中,这使得网络对隐藏状态中的s的变化更加鲁棒,并帮助网络避免过度拟合。 Zoneout使用伯努利掩码k来修改ht的动态,如
h=kh+(1-k)1(58)
这改善了网络中的信息流[85]Zoneout的性能略好于dropout。然而,它也可以与dropout和其他正则化方法一起工作[85].
六.欧洲电信网络为信号
过程
RNN在不同领域有着不同的应用,在这方面发表了大量的研究文章。在这一节中,我们回顾了RNN在信号处理中的不同应用,特别是文本,音频和语音,图像,
和视频处理。
A. 文本
RNN是为自然语言处理和语言建模中的各种应用而开发的。RNN可以超越n元模型,并广泛用作语言模型[86]。然而,RNN的计算成本更高
也很难训练在[87]中提出了一种基于输出层因式分解的方法,该方法可以将用于语言建模的RNN的训练速度提高100倍。在这种方法中,单词根据其单字频率被分配到特定类别,并且只有属于预测类别的单词在输出层中进行评估[86]HF优化在[5]中使用, 训练RNN进行字符级语言建模。该模型使用门控连接来允许当前输入字符确定从一个隐藏状态向量到下一个隐藏状态向量的转移矩阵[5]LSTM已经改进了用于语言建模的RNN模型,因为它们的能力t<span id=126>o学习序列中的长期依赖关系比简单的隐藏状态更好[88]。 LSTM在[89]中也被用于生成复杂的文本和具有长程结构的在线手写序列,只需一次预测一个数据点。RNN也被用于捕捉文学作品中的诗歌风格并生成歌词,例如Rap歌词生成[90]-[92]在文献中提出了各种使用RNN的文档分类任务。在[93]中,GRU适于执行文档级情感分析。在[94]中,RCNN用于多个数据集的文本分类。 在这种方法中,通常将单词映射到特征向量,并且将特征向量的序列作为输入传递到RNN模型。图像)作为输入馈送到CNN。CNN在[95]中用于对放射学报告进行分类。所提出的模型是特别开发的胸部病理学和乳房X线照片的报告。然而,RNN尚未被用于医学报告解释,并且可能导致非常高的分类概率。
B。语音和音频
语音和音频信号随时间连续变化。音频信号固有的顺序和时变性质使RNN成为学习该领域特征的理想模型。
直到最近,RNN在标记未分割语音数据方面的贡献有限,主要是因为这项任务需要预分割数据和后处理以产生输出[96]。 语音识别中的早期模型,如时延神经网络,通常试图通过向ANN提供一组帧来利用数据的顺序性质[97]。在预测中,BRNN的概念被引入语音识别[98]后来,RNN与隐马尔可夫模型(HMM)相结合,其中HMM充当声学模型,而RNN充当语言模型[99]。 随着连接主义时间分类(CTC)函数的引入,RNN能够利用未分割语音数据的序列学习[96]。从那时起,RNN在语音识别中的普及已经爆发。 然后,语音识别的发展使用CTC功能以及更新的递归网络架构,这些架构对渐变梯度更鲁棒,以提高性能并在更大的词汇表上执行识别[100]-[102]CTC模型的迭代,例如序列换能器和神经换能器[89],</span>[103]
17
已经整合了第二个RNN作为语言模型来处理在线语音识别等任务。这些增强允许模型不仅基于语言特征,而且基于先前所做的翻译来进行预测。
语音情感识别与语音识别非常相似,因此必须将语音片段归类为情感艾德。因此,语音情感识别的发展遵循了与语音识别相同的路径,最初在语音应用中广泛使用了障碍物[104]。后来,高斯混合模型(Gaussianmixturemodels,GMM)因其较低的训练要求和<span id=54>有效的多模态分布建模[104]然而,这些模型通常需要手工制作和功能设计的输入数据。因此,我的例子是梅尔频率倒谱系数(MFCC),感知线性预测(PLP)系数和超分段特征[105]随着RNN的引入,输入数据的趋势开始从这种特征工程转变为将原始信号作为输入,因为网络本身能够自己学习这些特征。从那时起,已经引入了几种RNN模型来执行语音情感识别[106],LSTM网络被证明具有比支持向量机(SVM)和条件随机场(CRF)更好的性能。 这种改进的性能归因于网络通过更好地建模长期依赖性来捕捉情感的能力。在[107]中,引入了用于语音情感识别的深度BLSTM。深度BLSTM能够通过获取更多数量的帧来捕获更多信息,而前馈DNN简单地使用序列中具有最高能量的帧[107]然而,与之前用于语音情感识别的RNN相比,进行了鉴于此模型使用了与之前描述的LSTM模型不同的模型,因此无法比较哪种架构性能更好。最近,深度卷积LSTM在[105]中被改编。 当在RECOLA数据集上进行测试时,该模型提供了最先进的性能,因为卷积层学习去除背景噪声并概述语音中的重要特征,而LSTM对语音的时间结构进行建模</span> sequencence.
就像语音识别一样,语音合成也需要长期的序列学习。基于HMM的模型通常可以产生听起来不自然的合成语音,这是由于模型产生的过于平滑的t轨迹,作为训练阶段统计平均的结果[108]e表明,深度MLP神经网络可以合成语音。然而,这些模型将每个帧视为独立于i个相邻帧的独立实体,并且未能考虑语音的顺序性质[108]RNN首先用于语音合成以利用这些顺序依赖关系[109],[110],然后被替换为<span id=96>使用LSTM模型更好地学习长期顺序依赖关系[111]。 BLSTM已经被证明在语音合成中表现得非常好,因为它能够在未来和过去的时间步长中整合与相邻帧的关系[112],[113]CNN已经被证明比artLSTM模型的状态,
特别是WaveNet模型[114]WaveNet是一种新引入的CNN,能够使用扩张卷积生成语音。通过使用扩展的因果卷积,WaveNet可以通过增加其输入的接受域来建模长范围的时间依赖性。WaveNet表现出比LSTM和Hacker更好的性能[114].
复调音乐的建模提出了另一项具有内在上下文依赖性的任务。在[115]中,引入了与受限玻尔兹曼机(RBM)相结合的RNN,它能够对音乐曲目中的时间信息进行建模。该模型具有一系列条件RBM,这些RBM作为参数被馈送到RNN,因此可以从不同复杂度的钢琴音乐中学习和声和节奏概率规则[115]。 研究表明,RNN模型很难跟踪表明音乐时间结构的遥远事件[116]LSTM模型已经被应用于音乐生成中,以更好地学习某些音乐流派的长期时间结构。音乐(Music)
C. C. Image
学习空间相关性通常是机器视觉的主要焦点。虽然CNN在计算机视觉和图像处理中的大多数应用中占据主导地位,但RNN也显示出了有希望的结果,如图像标记、图像建模和手写识别。
场景标记是指将图像中的每个像素与一个类相关联的任务。这内在地涉及像素的分类与其相邻像素的类别相关联。然而,像CNN这样的模型在其模型中使用这些底层依赖关系方面并不完全成功。这些依赖关系已经被证明在RNN的许多实现中得到了利用。一组图像被表示为无向循环图(UCG)[118]为了将这些图像馈送到RNN中,UCG被分解为几个有向非循环图(DAG),以近似原始图像。 每个DAG图像都涉及一个卷积层来产生区分性特征映射,一个DAG-RNN来建模像素之间的上下文依赖关系,以及一个去卷积层来将特征映射上采样到其原始图像大小。这种实现在流行的数据集上具有比其他状态的rt模型更好的性能,例如SiftFlowCamVid和Barcelona[118]在[49]中示出了类似的实现,其中不是将图像分解为几个DAG,而是首先将图像馈送到</span>到CNN中提取局部补丁的特征,然后将其馈送到2D-RNN这个2D-RNN类似于简单的RNN,除了它能够在二维中存储隐藏状态。 这两个隐藏的神经元从不同的方向流向同一个神经元,以创建隐藏的记忆。为了对整个图像进行编码,选择多个起始点来创建同一像素的多个隐藏状态。这种架构通过引入2D-LSTM单元来进一步发展,以更好地保留长期信息[119]图像建模是为图像分配概率分布的任务。 RNN自然是图像建模任务的最佳选择,因为它具有用作
18
生成模型 深度递归注意力书写器(DRAW)结合了一种新的空间注意力机制,该机制模拟了人眼的视觉中心凹,并结合了一个顺序变分自动编码框架,该框架允许迭代构建复杂图像[120]。这使得所有像素都在单个潜在分布上建模。DRAW模型通过首先相互独立地生成场景的各个部分来生成图像,然后再进行精细化迭代。最近引入的PixelRNN,涉及LSTM和BLSTM,已经显示出在建模具有可扩展性的自然图像方面的改进[121]PixelRNN使用多达12个2维LSTM层,每个层都有一个输入到状态组件和一个递归</span>状态到状态分量。然后,这些组件确定每个LSTM内部的门。为了计算这些状态,使用掩蔽卷积来沿着图像的维度之沿着收集状态。该模型具有比在MNIST和CIFAR-10数据集上评估的其他最新模型更好的对数似然核心。 虽然PixelRNN在MNIST数据集上的表现比DRAW更好,但这两个模型之间没有比较。
手写体识别是图像处理和序列学习的结合。这个任务可以分为两种类型,在线识别和精细识别。考虑到字母序列中的上下文依赖性,RNN在这项任务中表现良好[122]。 对于在线手写识别任务,笔尖的位置被间隔记录,这些位置被映射到单词序列[122]。 在[122]中,BLSTM模型被引入用于在线手写识别。该模型的性能优于传统的HMM模型,因为它能够利用过去和未来时间步长的信息。BLSTM在与概率语言模型结合并使用CTC训练时表现良好。 对于精细的手写识别,只有手写的图像可用。为了解决这个问题,MDLSTM用于将2维输入转换为1维序列[52]。然后,数据通过MDLSTM的层次结构,其逐渐减小数据的大小。虽然这些任务通常使用CNN来实现,但有人认为,由于这种网络中没有经常性的连接,CNN不能用于草书手写识别,除非首先进行预分割[52]。 [52]中提出的MDLSTM模型提供了一个简单的解决方案,它不需要分段输入,并且可以学习长期的时间依赖性。
在[123]中开发了递归生成网络,以自动从压缩线测量中恢复图像。在该模型中,开发了一种新的近似学习框架,该框架采用ResNets对近似进行建模,并使用像素和感知代价的混合进行训练。 [124]中开发了深度卷积生成对抗网络,以生成阿尔蒂正式胸片,用于胸片中的自动异常检测。该模型可以扩展到具有空间和时间依赖性的医学图像模态,例如使用RCNN的头部磁共振成像(MRI)。由于RNN可以对非线性动态系统建模,
RNN架构可以潜在地增强
这些模型。
D. 视频
视频是图像序列(即,帧),其中帧与每一帧中的像素之间分别具有时间及空间相依性。视频文件与单个图像的像素要多得多,这导致处理它的参数和计算成本更大。 虽然使用RNN对视频执行了不同的任务,但它们在视频描述生成中最为普遍。该应用涉及图像处理和自然语言处理的组件。 [125]中提出的方法将用于视觉特征提取的CNN与能够将特征解码为自然语言字符串的LSTM模型相结合,称为长期递归卷积网络。span id=112>(LRCN)。然而,该模型不是端到端的解决方案,并且需要CNN生成的特征的监督中间表示。这个模型建立在[126]中,它引入了一个能够端到端训练的解决方案。该模型使用LSTM模型,该模型直接连接到深度CNN。该模型在[127]中得到了进一步改进,其中引入了用于特征提取的三维卷积架构。然后,这些特征被馈送到基于软注意机制的LSTM模式l,以动态控制来自多个视频帧的信息流。与其他类型的信号相比,RNN在视频处理方面的进展较少,这为时域信号处理带来了新的机会。
空间机器学习
七. C.结论和可能的方向
在本文中,我们系统地回顾了RNN的主要和最新进展的文献,并介绍了具有挑战性的问题,在训练RNN。RNN指的是阿尔蒂正式神经元网络,它们之间具有循环连接。循环连接学习输入序列或时间序列数据之间的依赖关系。 学习顺序依赖关系的能力使RNN在语音识别、语音合成、机器视觉和视频生成等应用中越来越受欢迎。
其中一个主要的挑战是训练RNN是学习数据中的长期依赖关系。它通常是由于在RNN的训练过程中需要在很长一段时间内优化大量参数而发生的。本文讨论了为解决与RNN训练相关的问题而开发的几种架构和训练方法。以下是开发RNN的一些主要机会和挑战
·BPTT算法的引入促进了RNN的有效训练。然而,这种方法引入了梯度消失和爆炸问题。RNN的最新进展旨在解决这个问题。然而,这些挑战仍然是训练RNN的主要瓶颈。
·门控机制在允许RNN学习长期序列依赖性方面取得了突破。
19
LSTM和GRU等架构已在各种应用中显示出显著的高性能。然而,这些架构比简单的RNN引入了更高的复杂性和计算。降低这些架构的内部复杂性可以帮助减少网络的训练时间。
·酉RNN通过引入能够学习长期依赖关系的简单阿尔奇,潜在地解决了上述问题。通过将内部权值用酉矩阵表示,该结构在保持简单RNN复杂性的同时,提供子更强的建模能力。进一步研究酉RNN的使用可以帮助验证其相对于门控RNN的性能。
•
几种正则化方法,如dropout,activationstabilization和activationpreservation,已被用于RNN以避免过拟合。虽然这些方法已经证明可以提高性能,但没有正则化RNN的标准。对RNN正则化的进一步研究可以帮助引入更好的正则化方法。
RNN具有从三维医学图像中学习特征的巨大潜力,例如头部MRI扫描,肺部计算机断层扫描(CT)和腹部MRI。在这样的模态中,图像之间的时间依赖性是非常重要的,部分地对于癌症检测是非常重要的
和分割。
参考文献
[1]Y. 莱昆湾,巴西-地Bengio和G. 欣顿,深度学习,”自然卷。521,no. 7553,pp. 436-444,2015年。
[2] G. E.欣顿,S.奥辛德罗和Y.- W. Teh,“Afastlearningalgorithmfordeepbeliefnets”,Neuracomputationvol. 号18第7页。第1527-1554页,2006年。
[3] Y. 本焦,北Boulanger-Lewandowski,和R. Pascanu“Advancesinoptimizingrecurrentnetworks”,在声学,语音和信号处理(ICASSP),2013年IEEE国际会议上。IEEE,2013,pp. 8624-8628.
[4] Y. Bengio,P. Simard,and P. Frasconi,“Learninglong-termdependence-encieswithgradientdescentisdifficult,”IEEEtransactions on neuralnetworks,vol. 5,no. 第2页。157-166,1994年。
[5]一. Sutskever,J. Martens和G. E. 欣顿,“Generatingtextwithrecurrentneuralnetworks”,inProceedings of the 28thInternationalConferenceonMachineLearning(ICML-11),2011,pp1017-1024。
[6]T. Mikolov,A. Joulin,S. 乔普拉,M. Mathieu和M. Ranzato,“Learning longer memory in recurrent neural networks,”arXivpreprintarXiv:1412.7753,2014.
[7]S. Haykin,神经网络:一个全面的基础普伦蒂斯霍尔PTR1994。
[8] T. 米科洛夫,M。卡拉菲亚特湖Burget,J. Cernock,y和S. Khudanpur,“基于递归神经网络的语言模型”。inInterspeechvol2,2010,p. 3.
[9]一.放大图片作者:J. Dahl和G.欣顿,“关于深度学习中初始化和动量的重要性”,国际机器学习会议,2013年,第1139-1147页。
[10] Y.本焦湾LeCun等. “Scalinglearningalgorithms towardsai,”Large-scalekernelmachines,vol. 34,no5,pp1-41,2007.
[11]A.克里热夫斯基岛Sutskever和G. E.欣顿,“Imagenet classi ficationwith deep convolutional neural networks”,神经信息处理系统进展,2012年,第1097-1105页。
[12]一. Sutskever,“训练循环神经网络”,多伦多大学多伦多安大略省,加拿大,2013年。
[13]一. GoodfellowY. Bengio和ACourville深度学习MITPress,2016,http://www.deeplearningbook. org.
[14] R.威廉姆斯和D. Zipser,“递归网络及其计算复杂性的基于递归的学习算法”,反向传播:理论,架构和应用第1卷,第433-486页,1995年。
[15] G. 诉Puskorius和L. A. Feldkamp,“神经控制的非线性动态系统与卡尔曼滤波训练的递归网络”,IEEE神经网络学报,卷。5,不。2,第279-297页,1994。
[16] S. Ma和C. Ji,“A艾德艾德approach onfast training offeedforward andrecurrentnetworksusing emalgorithm,”IEEEtransactions onsignalprocessing,vol. 46,no. 第8页。2270-2274,1998。
[17]第十七话W. Chan和C.- C. 史多,“以块对角近似法训练递归网路”,神经网路,1999。IJCNN'99. 国际联合会议第三卷。IEEE,1999,pp. 1521-1526.
[18]第十八话Ruder,“梯度下降优化算法概述”,arXiv预印本,arXiv:1609.04747,2016年。
[19] R.帕斯卡努,T. Mikolov和Y. Bengio,“训练递归神经网络的困难”,在2013年国际机器学习会议上,pp. 1310-1318.
[20] P. J. Werbos,“Backpropagationthrough time:what it doesand howtodo it”,ProceedingsoftheIEEE,vol. 78,no. 第10页。1550-1560年,1990年。
[21]问。V. Le,N.(1995 - 1996),巴西,巴西-地Jaitly和G. E.欣顿,“一种简单的方法来初始化rectified艾德线性单元的递归网络”,arXiv预印本arXiv:1504.00941,2015。
[22]J. A. P'erez-Ortiz,F. A. Gers,D. Eck和J. Schmidhuber,“卡尔曼滤波器在传统递归网络无法解决的问题中提高了lstm网络的性能”,Neural Networksvol. 号16第2页。241-250,2003年。
[23]T. 米科洛夫岛,意-地萨特斯凯弗A. Deoras,H. S. LeS. Kombrink和J. Cerebrsky,“Subwordlanguagemodelingwithneuralnetworks”,预印本http://www.适合。vutbrcz/imikolov/rnnlm/charpdf,2012.
[24]第二十四话Mikolov和G. Zweig,“上下文依赖递归神经网络语言模型”。拉克萨火山12,第234-239页,2012年。
[25]Y. A. 勒昆湖博图湾B。奥尔和K。- R. 缪勒效率
《神经网络:交易技巧》(NeuralNetworks:TricksoftheTrade)Springer2012,
pp. 9-48.
[26] B. T. Polyak,“加速迭代法收敛的一些方法”,苏联计算数学和数学物理,第4卷,第10号。第5页。1964年1月17日
[27] A. Cotter,O.沙米尔河Srebro和K. Sridharan,“Bettermini-batchalgorithmsviaacceleratedgradientmethods,”inAdvances in neuralinformationprocessingsystems,2011,pp1647-1655.
[28] J. 马滕斯和我Sutskever,“用无hessian-free optimization训练深度和递归网络”,神经网络:贸易技巧,第2009页。479-535,2012年。
[29]第二十九话放大图片作者简介:黄志光Popovici和H. Larochelle,“深度网络的贪婪逐层训练”,《神经信息处理系统进展》,2007年,第153-160页。
[30]L. BottouStochasticlearning,”inAdvancedlecturesonmachinelearning. Springer,2004,pp. 146-168.
[31] D. Kingma和J. Ba,“AdamA methodforstochasticoptimization”,arXiv预印本arXiv:1412.6980,2014。
[32] S 请收看卡尔曼工业和神经网络WileyOnline Library2001年
[33]中国农业大学学报. J. 威廉姆斯,“使用扩展卡尔曼滤波器训练递归网络”,神经网络1992年。IJCNN.,国际联合会议,卷。4. IEEE1992,第241- 246页。
[34] J. Martens,“Deep learning via hessian-freeoptimization”,第27届国际机器学习会议(ICML-10)论文集,2010年,pp. 735-742.
[35] D. T. Mirikitani和N. Nikolaev,“Recursive baidu recursive neuralnetworksfortime-seriesmodeling,”IEEETransactionson NeuralNetworks,vol. 21,no. 第2页。262-274,2010年。
[36] J. Martens和I. Sutskever,“Learning recurrentneural networkswithhessian-freeoptimization”,inProceedingsofthe28thInternationalConferenceonMachineLearning(ICML-11),2011,pp1033-1040.
[37] H.萨利赫内贾德Rahnamayan和H. R. Tizhoosh,“微差分进化:多样性增强和比较研究”,应用软计算,卷。52,pp812-833,2017.
[38]P. J. Angeline,G. M. Saunders和J. B。Pollack,“Anevolutionaryalgorithm that constructs recurrent neural networks,”IEEE transactionsonNeuralNetworks,vol. 5,第1期,第54-65页,1994年。
[39] I'm sorry. Unnikrishnan和K. P. Venugopal,“Alopex:前馈和递归神经网络的基于相关性的学习算法”,神经计算卷。6,不。3,第469-490页,1994年。
20
[40] C. Smith和Y. Jin,“用于时间序列预测的递归神经网络集成的进化多目标生成”,神经计算卷。第143页。302-311,2014.
[41]A.田中T. Moriya,T. Shinozaki,S.渡边,T. Hori和K. Duh,“长短期记忆神经网络语言模型的进化优化”,美国声学学会期刊,卷。140,no. 4,pp. 3062-3062,2016年。
[42] H. 萨利赫内贾德Rahnamayan,H. RTizhoosh和S. Y. Chen,“Micro-differentialevolutionwith vectorized random mutation factor,”inEvolutionaryComputation(CEC),2014 IEEECongressonIEEE,2014,pp. 2055-2062.
[43] A. 格雷夫斯,阿- R. Mohamed和G. Hinton,“Speechrecognitionwithdeeprecurrent neural networks”,Acoustics,speechandsignalprocessing(icassp),2013年IEEE国际会议。IEEE2013,pp. 6645-6649.
[44]美国帕斯卡努角古尔塞尔角Cho和Y. Bengio,“Howtoconstructdeep recurrent neural networks,”arXivpreprint arXiv:1312.6026,2013.
[45]I'm sorry. 米科洛夫岛,意-地萨特斯凯弗角,澳-地Chen,G. S. Corrado和J. Dean,“单词和短语的分布式表示及其复合性”,神经信息处理系统的进展,2013年,第100页。3111-3119.
[46] I'm sorry. Schuster和K. K. Paliwal,“Bidirectionalrecurrentneuralnetworks,”IEEETransactionsonSignalProcessing,vol. 45,第11期,第2673-2681页,1997。
[47]美国。梁和X。Hu,“Recurrent convolutional aneuralnetworkforobjectrecognition”,inProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition2015,pp. 3367-3375.
[48] P.平埃罗和R. Collobert,“Recurrent convolutional neural networksforscenelabeling”,2014年国际机器学习会议,第10页。82-90.
[49] B'm sorry. 绍伊Z. Zuo和G. Wang,“用于图像标记的Quadirectional2d-recurrentneuralnetworks”,IEEESignalProcessingLetters,vol.号22第11页。1990-1994年,2015年。
[50] P. Baldi和G. Pollastri,“大规模递归神经网络架构的原则设计-dag-rnns和蛋白质结构预测问题”,机器学习研究杂志第4卷,第11期。Sep,pp. 575-602,2003年。
[51] A.格雷夫斯,S。Fern 'andez和J. Schmidhuber,“多维递归神经网络”,2007年。[联机]。可用网址:http://arxiv.org/abs/0705.2011
[52] A. Graves和J. Schmidhuber,“使用多维递归神经网络进行手写识别”,神经信息处理系统的进展,2009年,第100页。545-552.
[53]F. Visin,K. 卡斯特纳角周,M。马特乌奇,阿. Courville和Y. Bengio,“Renet:一种基于递归神经网络的卷积网络替代方案”,arXiv预印本arXiv:1505.00393,2015。
[54] S. Hochreiter和J. Schmidhuber,“长短时记忆”,神经计算,第9卷,第100期。第8页。1735-1780年,1997年。
[55]F. A. Gers,J. Schmidhuber和F. 康明斯,“学习获取:使用lstm的连续预测”,1999年。
[56]第五章Zhu,P. Sobihani和H. Guo,“Longshort-termmemoryoverrecursivestructures”,2015年国际机器学习会议,第100页。1604-1612.
[57] N. 卡尔希布伦纳岛Danihelka和A. Graves,“Gridlongshort-termmemory,”arXivpreprintarXiv:1507.01526,2015.
[58] I'm sorry. Yao,T.科恩,K.Vyl omova,K.Duh和C.Dyer,"Depth-gated lstm," arXiv preprint arXiv:1508.03790,2015.
[59] I'm sorry.巴列斯特罗斯角,巴西-地Dyer和N. a. Smith,"Improved transition based parsing by modeling characters nstead of words with lstms," arXiv preprint arXiv:1508.00657,2015.
[60] O. 阿卜杜勒-哈米德R. 穆罕默德,H. Jiang,和G. Penn,“Applyingconvolutional neural networks conceptsto hybrid nn-hmmmodelforspeechrecognition”,inAcoustics,SpeechandSignalProcessingICASSP),2012IEEEInternationalConferenceonIEEE,2012,pp4277-4280。
[61] A. Graves和J. Schmidhuber,“使用双向lstm和其他神经网络架构的帧式音素分类”,神经网络,卷。号18 第5页。602-610,2005年。
[62] S. Wang and J. Jiang,“Learningg natural language inference with lstm,”arXivpreprintarXiv:1512.08849,2015.
[63] A. 格雷夫斯,S。费尔南德斯和J. Schmidhuber,“Multi-dimensionalRecursiveNeuralNetworks,”arXivpreprintarXiv:0705.2011v12007.
[64] L. Theis和M. Bethge,“使用空间lstms的生成图像建模”,神经信息处理系统进展,2015年,第100页。1918-1926.
[65]第六十五话Zhuang和G.- J. Qi,“Differentialrecurrent neural networks foraction recognition”,IEEEInternationalConferenceonComputerVision,2015,pp. 4041-4049.
[66]第六十六章梁X。沈德向杰峰Lin和SYan使用局部-全局长短期记忆进行语义对象解析,”arXiv预印本arXiv:1511.04510,2015年。
[67]J. Li,A.穆罕默德,G. Zweig和Y. Gong,“Lstm Time and FrequencyRecurrencefor AutomaticSpeechRecognition,”2015.
[68]第二章施,Z. Chen,H. 王维,D.- Y. 杨,W。-K 王和W- C. Woo,“Convolutionallstmnetwork:Amachinelearningapproachforprecipitationnowcasting,”arXivpreprintarXiv:1506.04214,2015.
[69]第六十九话古尔塞尔角Cho和Y. Bengio,“门控递归神经网络对序列建模的经验评估”,arXiv预印本arXiv:1412.3555,2014。
[70] I'm sorry. 周,B。货车Merrienboer,D. Bahdanau和Y. Bengio,“Onheproperties ofneural machinetechnology:Encoder-decoder approaches”,arXivpreprintarXiv:1409.1259,2014。
[71]J. 韦斯顿,S. Chopra和A. Bordes,“Memorynetworks,”arXivpreprintarXiv:1410.3916,2014.
[72] J. 韦斯顿,A. 南博德斯Chopra和T. Mikolov,“Towards ai-completequestionanswering:asetofpremisestoytasks,”arXivpreprintarXiv:1502.05698,2015.
[73]A.库马尔湖,澳-地Irsoy,J. Su,J. Bradbury,R.英语,B。皮尔斯,
翁德鲁斯卡岛Gulrajani,和R. Socher,“Ask meanything:Dynamicmemorynetworksfornaturallanguageprocessing,”arXiv preprintarXiv:1506.07285,2015.
[74] I'm sorry.苏赫巴托,韦斯顿,R. Fergus等人,“端到端记忆网络”,在神经信息处理系统的进展2015年,第100页。2431-2439.
[75] I'm sorry. Tran,A. Bisazza,和C. Monz,“Recurrentmemorynetworkforlanguagemodeling,”arXivpreprintarXiv:1601.012722016.
[76]I'm sorry. Arjovsky,A. 嘘,还有Y。Bengio,“酉进化递归神经网络”,2016年国际机器学习会议,第10页。1120-1128.
[77] I'm sorry. 京角,加-地Gulcehre,J. Peurifoy,Y.沈,M。泰格马克,M。Soljaci 'c,和damy。Bengio,“门控正交循环单元:学习忘记”,arXiv预印本arXiv:1706.02761,2017。
[78]A. 格雷夫斯监督序列标记与循环神经网络。施普林格科学&商业媒体,2012年,第一卷。385.
[79]C. M. Bishop模式识别和机器学习Springer2006。
[80] N. Srivastava,“Improvingneuralnetworkswithdropout,”Universityof多伦多,vol. 182,2013年。
[81] I'm sorry. 范,T. 布鲁什角Kermorvant和J. Louradour,“Dropout改进子手写识别的递归神经网络”,在
2014年第14届手写识别国际会议(ICFHR)。IEEE,2014年,第285比290。
[82] I'm sorry. 穆恩,H。崔,H。李,我。Song,“Rnndrop:Anoveldropoutforrnnsinasr,”inAutomaticSpeechRecognitionandUnderstandingASRU),2015IEEEWorkshoponIEEE,2015,pp. 65-70.
[83] S. Semeniuta,A. Severyn和E. Barth,“Recurrentdropoutwithoutmemoryloss,”arXivpreprintarXiv:1603.05118,2016.
[84] D. Krueger和R. Memisevic,“Regularizing rnns by stabilizingactivations,”arXivpreprintarXiv:1511.08400,2015.
[85]D. 克鲁格,T. 作者:J. 佩泽什基河巴拉斯河R. KeA. GoyalY. BengioH. 拉罗谢尔河CourvilleetalZoneoutRegularizingrnnsbyrandomlypreservinghiddenactivations,”arXivpreprintarXiv:1606.01305,2016.
[86] I'm sorry. Mikolov,A. Deoras,S. 孔布林克湖Burget和J. 埃尔诺克,y,
“先进语言建模技术的经验评估和组合”,国际语音通信协会第十二届年会,2011年。
[87] I'm sorry. Mikolov,S. 孔布林克湖Burget,J. ernock,y和S. 库丹普尔,
“递归神经网络语言模型的扩展”,声学,语音和信号处理(ICASSP),2011IEEE国际会议。IEEE,2011年,第31.联合国儿童基金会
[88] I'm sorry. 桑德迈尔河Schl& quot;uter和H. Ney,“Lstmneuranet-worksfor language modeling”,2012年国际语音通信协会第十三届年会。
[89] A. Graves,“Generatingsequenceswithrecurrentneuralstroks,”arXivpreprintarXiv:1308.0850,2013。
[90] X. Zhang和M. Lapata,“用递归神经网络生成中国诗歌”。在EMNLP2014中,pp. 670-680。
[91] P. Potash,A. Romanov和A. Rumshisky,“Ghostwriter:usinganlstmforautomaticraplyricgeneration,”inProceedings of the2015Conference onEmpiricalMethods in NaturalLanguageProcessing2015,pp. 1919-1924年。
21
[92] I 'M sorry. 加兹维内贾德十世施雅崔和K·奈特创作主题诗歌。”EMNLP2016,第1183-1191页。
[93]D. 唐,B。Qin和T. LiuDocument使用门控递归神经网络进行情感分类建模。参见EMNLP2015,第1422- 1432页。
[94] I'm sorry. 莱湖徐克LiuandZhaoRecurrentconvolutionalneuralnetworksfortextclassification.”在AAAIvol333,2015,pp2267-2273中。
[95]H. Salehinejad,J. Valaee,E. 科拉克A Mnatzakanian和T. Dowdell,“使用深度神经网络解释乳房X线照片和胸部X线照片报告-初步结果”,arXiv预印本arXiv:1708.092542017。
[96]A. 格雷夫斯S. 羊齿蕨Gomez和SchmidhuberConnection-isttemporalclassification:labelingunsegmentedsequencedatawithrecurrentneuralnetworks,”第23届国际机器学习会议论文集。ACM2006,第369-376页。
[97]A. Waibel,T. 花泽湾欣顿K. Shikano和KJ.Lang,“Phonemerecognitionusingtime delayneuralnetworkworks,”IEEEtransactionsonacoustics,speech,andsignal processingvol. 37岁,不。第3页。328-339,1989年。
[98]I'm sorry. Schuster,“用于语音识别的双向循环神经网络”,技术报告TechRep.,1996.
[99]H. A. Bourlard和NMorgan,连接主义语音识别混合方法。2012&年,《科学》杂志,第247卷。
[100]A. Graves和NJaitly“使用循环神经网络实现端到端语音识别”,第31届机器学习国际会议论文集(ICML-14)2014,第1764-1772页。
[101]H. 萨克河Senior和FBeaufays基于长期短期记忆的递归神经网络架构用于大容量语音识别,“arXiv预印本arXiv:1402.11282014。
[102]D. 作者:J. Serdyuk、P.Brakel和YBengio基于端到端注意力的大词汇量语音识别”,
声学,语音和信号处理(ICASSP),2016年IEEE国际会议。IEEE2016,第4945-4949页。
[103]N. JaitlyD. 苏西洛角V.LeO. 维尼亚尔斯岛SutskeverandSBengioAneuraltransducer,”arXivpreprintarXiv:1511.048682015.
[104] I'msorry. ElAyadiM. S. Kamel和FKarray关于语音情感识别的调查:特征,分类方案和数据库,“模式识别第44卷,第3期,第572-587页,2011年。
[105]G. TrigeorgisF. 林格瓦尔河布鲁克纳马奇A. 尼古拉B。Schuller和S. Zafeiriou,“再见功能? 使用深度卷积递归网络的端到端语音情感识别,“声学,语音和信号处理(ICASSP),2016年IEEE国际会议。IEEE2016,第5200-5204页。
[106]I'm sorry. W?ollmer,F. Eyben,S. Reiter,B. 舒勒角考克斯,E. 道格拉斯-考伊和R.Cowie,“放弃情感类--通过远程依赖建模实现连续情感识别”,2008年国际语音通信协会第九届年会。
[107]J. 李和塔舍夫使用递归神经网络进行语音情感识别的高级特征表示. INTERSPEECH2015,第1537-1540页。
[108]I'm sorry. 范·Z 王杰贝克·J Kwok和KAHeller的Fastsecondorder stochastic backpropagationfor variableinference,“在神经信息处理系统的进展2015年,第1387-1395页。
[109]O. Karaali,G. 科里根岛Gerson和N. Massey,“Text-to-SpeechConversion withNeural Networks:ARecurrentTDNNApproach,”arXivpreprintcs/98110321998.
[110]C. Tuerk和T罗宾逊,“Speechsynthesisusing阿尔蒂官方神经网络trainedoncepstralcoefficients.”1993年欧洲语。
[111]H. Zen和HSak的Unidirectionallong-short-termmemoryrecurrentneural network withrecurrentoutputlayerforlow-latency speechsynthesis,”在Acoustics,SpeechandSignal Processing(ICASSP)中,2015IEEEInternationalConferenceonIEEE2015,第4470-4474页。
[112]I'm sorry. 范,Y。钱福L. Xie和FK. Soong“Ttssynthesiswithbidirectionallstm basedrecurrent neural networks”,2014年国际语音通信协会第十五届年会。
[113]I'm sorry. 费尔南德斯伦德尔B。Ramabhadran和RHooryProsody
轮廓预测与长期短期记忆,双向,深度递归神经网络。Interspeech2014,第2268-2272页。
[114]A. 诉D. 奥德S. 迪勒曼·H ZenK 西蒙尼扬岛维尼亚尔斯河格雷夫斯,北卡尔希布伦纳河老,K。KavukcuogluWavenetAgenerativemodelforrawaudio,”arXivpreprintarXiv:1609.034992016.
[115]I'm sorry. Boulanger-LewandowskiY. Bengio,andPVincentModelingtemporaldependenciesin high-dimensional sequences:Applicationto polyphonic musicgenerationandtranscription,”arXiv preprintarXiv:1206.63922012.
[116]D. EckandSchmidhuber“Afirstlookatmusiccompositionusinglstm recurrent neural networks,”IstitutoDalle MolleDiStudiSullIntelligenza阿尔蒂ficialevol103,2002.
[117]--,在音乐中寻找时间结构蓝调即兴与lstm经常性网络,"在神经网络信号处理,
2002. 2002年第12届IEEE研讨会论文集。IEEE2002,第747-756页。
[118]B'm sorry. 绍伊Z. 左B。Wang和GWangDag-用于场景标记的递归神经网络,”在IEEE计算机视觉和模式识别会议2016年的会议记录中,第3620-3629页。
[119]I'm sorry. Byeon,T. M. Breuel,F. Raue和MLiwickiScenelabelingwithlstm recurrent neural networks,”在2015年IEEE计算机视觉和模式识别会议论文集,第3547-3555页。
[120]I'm sorry. 格雷果岛丹尼赫尔卡河格雷夫斯湾J. RezelandandDWierstra“Draw:Arecurrentneuralnetworkforimagegeneration,”arXivpreprintarXiv:1502.046232015.
[121]A. 诉D. 奥德河Kalchbrenner和KKavukcuogluPixel循环神经网络,”arXiv预印本arXiv:1601.067592016。
[122]A. 格雷夫斯湾利维奇·H 邦克·J Schmidhuber和SFernandez“Unconstrainedon-linehandwritingrecognitionwithrecurrentneuralnetworks”,《神经信息处理系统进展》,2008年,第577-584页。
[123]I'm sorry. Mardani,H. Monajemi,V.Papyan,S. Vasanawala,D. Donoho和J. Pauly,“用于近端学习和自动压缩图像恢复的循环生成广告对抗网络”,arXiv预印本arXiv:1711.100462017。
[124]H.H. SalehinejadS 瓦莱湾道德尔,E。Colak和Barfett“使用生成对抗网络对X射线中胸部病理学分类的深度神经网络进行泛化”,arXiv预印本arXiv:1712.016362017。
[125]第125话:我的世界安妮·亨德里克斯,S. 瓜达拉马罗尔巴赫河Venu-gopalan,K. Saenko和T. Darrell,“Long-term recurrentconvolutionalnetworksforvisualrecognitionanddescription”,inProceedingsoftheIEEEconference oncomputervisionandpattern recognition,2015,pp2625-2634.
[126]I'm sorry. Venugopalan,H. 徐俊多纳休湾罗尔巴赫河Mooney和K. Saenko,“Translating videos to naturallanguage usingdeep recurrentneuralnetworks,”arXivpreprintarXiv:1412.47292014.
[127]I'm sorry. Yao,中国山核桃A. 托拉比湾赵N 巴拉斯角你好Larochelle和A. Courville,“结合时空特征和软注意力机制的视频描述生成”,arXiv预印本arXiv:1502.080292015。