这是用户在 2024-11-20 23:46 为 https://app.immersivetranslate.com/word/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

1


递归神经网络研究进展


HojjatSalehinejad、沙兰Sankar、JosephBarfett、ErrolColakShahrokhValaee


摘要

- 经常性

神经

网络

(RNN)


能够


学习

特征


term
依赖关系


顺序


时间序列

数据

RNNs
a
堆叠

非线性

耳朵

单位

哪里


至少


连接

之间

单位

形成

引导

周期一个训练有素的RNN可以建模

任何动态的

系统的;

然而,在本发明中,

培训
RNNs

大多
plagued
通过

问题


学习

长期

个依赖项



纸张,

我们

a
调查


RNN和新来者和专业人士的几个新进展

在田野里。基础a

ls和

最近

进展


解释



研究

挑战


介绍


索引术语-深度学习、长期依赖性、循环神经网络、时间序列分析。


I.一、生产


RTIFICIAL神经

网络

(人工神经网络)


连接层

单位

称为

阿尔蒂文件
cial


“浅层网络”是指具有一个输入层、一个输出最多一个没有循环连接的隐藏层的人工神经网络。随着网络层数增加,网络的复杂性也随之增加。 更多层数递归连接通常会增加网络深度,并使其能够提供各种级别数据表示特征提取,称为“深度学习”。一般来说,这些网络非线性简单的单元组成,其中,=61>层提供数据的抽象的表示,并抑制不需要的可变性[1]。 由于每一层非线性组合造成的优化困难,在2006年取得重大进展之前,没有太多关于深度网络架构的工作[2],[3]具有循环连接的ANN称为循环神经网络<span id=116>(RNN)能够对序列数据进行建模,用于序列识别和预测[4]RNN具有非线性动力学的高维隐藏状态组成[5]隐藏状态的结构作为网络记忆</span>隐藏每次先前的状态为条件[6]这种结构使RNN能够长时间存储、记忆处理过去的复杂信号RNN可以输入序列映射到当前时间步输出序列,并预测一个时间步的序列。


基于RNN文献中,从阿尔奇设计到应用,大量论文发表


H. Salehinejad加拿大多伦多的多伦多大学电子&计算机工程加拿大圣路易斯的医学影像系的教授。加拿大多伦多多伦多大学迈克尔医院电子邮件:salehinejadh@ smh. ca。


S. 桑卡尔就职加拿大滑铁卢大学电气与计算机工程系,电子邮件:sdsankar@ edu. uwaterloo. ca。


J. Barfett和E. Colak加拿大多伦多多伦多大学迈克尔医院医学影像系的电子邮件barfettj,colake@smh.ca。


S. Valaee加拿大多伦多的多伦多大学电子&计算机工程系工作电子邮件:valaee@ece.utoronto.ca。


1:递归神经网络(RNN)的一些主要进展一览。



第一作者


贡献

1990

Elman


推广的简单RNN(Elman网络)

1993


朵娅


教师强迫学生大学(GD)

1994

Bengio


难以学习梯度下降长期依赖

1997

Hochreiter


LSTM:消失梯度问题长短记忆

1997


舒斯特


BRNN:双向递归神经网络

1998

LeCun


梯度消失问题Hessian矩阵方法

2000

Gers


遗忘的扩展LSTM

2001


古德曼


用于快速最大训练的类

2005

Morin


基于RNN语言建模层次softmax函数

2005


坟墓


BLSTM:双向LSTM

2007

Jaeger


泄漏集成神经网络

2007


坟墓


MDRNN:多维RNN

2009


坟墓


LSTM用于手写识别

2010

Mikolov


基于RNN语言模型

2010


尼尔


用于消失梯度问题整流艾德线性单元(ReLU)

2011

Martens


Hessian自由优化学习RNN

2011

Mikolov


通过反向传播的RNN


统计语言建模时间

2011

Sutskever


考虑结构阻尼的无Hessian优化

2011


杜奇


每个权重自适应学习

2012

Gutmann


噪声对比估计

2012

Mnih


用于训练神经概率语言模型(NPLM)的NCE

2012

Pascanu


利用梯度裁剪避免梯度爆炸问题

2013

Mikolov


采样代替分层softmax

2013

Sutskever


动量随机梯度描述

2013


坟墓


深度LSTMRNN(StackedLSTM)

2014

Cho


门控递归单元

2015

Zaremba


用于减少过拟合的压差

2015

Mikolov


结构约束递归网络


(SCRN)增强消失梯度问题学习更长的记忆

2015


维辛


ReNet:一种基于RNN卷积神经网络替代方案

2015

Gregor


画:循环细心的作家

2015

Kalchbrenner


网格长短记忆

2015

Srivastava


公路

2017



门控正交递归单元


发展本文中,我们重点讨论离散时间RNN和该领域的最新进展。表I列出RNN时间上的一些主要进展使用梯度下降(GD)的反向传播的发展为训练RNN提供了很好的机会这种简单的训练方法加速了开发RNN的实际成就[5]然而带来一些挑战,在建模长期的依赖消失爆炸梯度问题,是讨论一点

2


本文


其余的文件组织如下。RNN的基本原理第二节中介绍第三节讨论了训练RNN的方法第四节介绍了各种RNN架构训练RNN的正则化方法第五节中讨论后,在第六节中简要介绍RNN信号处理中的主要应用


二.一个简单欧元汇率网络


RNN一类监督的机器学习模型,具有一个多个反馈回路的阿尔蒂神经元组成[7]反馈回路是随时间序列我们在本文中称之时间而循环的周期[8],<span id=43>1中。以监督的方式训练RNN需要输入-目标对的训练数据集目标最小化输出目标之间的差异(即,损失值)


A. 模型架构


一个简单的RNN,分别输入层、递归隐藏层和输出层,如图1a所示输入层具有N个输入单元层的输入通过时间t的向量序列例如{. x1xxt+1,.},其中x=(x1x2,...,xN连接RNN输入单元连接隐藏隐藏单元其中连接矩阵WIH定义隐藏具有M个隐藏单元ht=h1h2<span id=98>,.,hM),它们通过循环连接在时间上相互连接,图1b。使用小的非零元素初始化隐藏单元可以提高网络的整体性能稳定性[9]隐藏层将系统的状态空间“内存”定义


h= fHo),(1)


哪里


o=WIHX+WHHh1+Bh(2)


fH(·)是隐藏层激活函数,并且Bh是隐藏单元的偏置向量隐藏单元通过加权连接WHO连接输出层


具有P个单元y=(y1y2,...,yP计算y= fOWHOh+Bo(3)


其中fO(·)是激活函数,并且BO是输出层中的偏置向量由于输入-目标对在时间上连续的,因此时间t=(1,.,T)的情况下等式(1)(3)表明RNN某些非线性状态方程组成,这些方程随时间迭代。每个时间步中,隐藏状态基于输入向量输出提供预测RNN的隐藏状态除了任何外部因素的影响外,它总结许多时间步长上关于网络过去状态的所有唯一必要信息。这些综合信息可以定义网络的未来行为,并在输出层做出准确的预测[5]RNN使用简单


输出

y1 y2
yP /


隐藏

/ h1 h2
hM


(一)

折叠
RNN.

t
t+1t+2时间


(B)随时间展开的RNN


图1:一个简单的递归神经网络(RNN)及其随时间的展开结构每个箭头显示层之间的单元完整连接为了使数字简单,没有显示偏差。


非线性激活函数然而,这种简单的结构能够建模里奇动态,如果通过时间步长良好的训练。


B。激活函数


对于线性网络,多个线性隐藏充当单个线性隐藏[10]非线性函数比线性函数更强大,因为它们可以在边界附近绘制非线性。RNN中的一个或连续隐藏中的非线性是学习输入-目标关系的原因。


一些最流行的激活函数2所示。近年来,sigmoid“、tanh修正的艾德线性单元(ReLU)其他激活函数受到了更多的关注。 “sigmoid”是一种常见的选择,接受一个真实的-将其压缩范围[0,1]激活函数通常用于输出其中交叉熵损失函数用于训练分类模型。 “tanh”“sigmoid”激活函数


tanh(x)=



σ(x)
= 1


分别“tanh”激活函数实际缩放的“sigmoid”激活函数例如


σ(x)=

. (6)


ReLU另一个流行激活函数,对于输入开放式的[3],定义


y(x)=max(x,0)。(七)


激活函数的选择主要取决问题和数据的性质例如“sigmoid”适用于输出[0,1]范围内的网络,然而tanhsigmoid激活函数使神经元非常快地饱和,并且c可以使梯度消失。尽管有“tanh”,但“sigmoid”非零集中输出

3

out

1

0.5

0

−0.5

−1

out

1

0.5

0

−0.5

−1

−4 −2 0 2 4



(a)线性
.

−4 −2 0 2 4



(b)分段线性
.

out

1

0.5

0

−0.5

−1

out

1

0.5

0

−0.5

−1

−4 −2 0 2 4



(c)tanhnet)。

−4 −2 0 2 4



(d)阈值
.



(e)sinnet直到饱和。(f)S2:常见的激活功能


可能导致权重的梯度更新S中的不稳定动态与“sigmoid”或“tanh”激活函数相比,ReLU激活函数导致梯度更稀疏,并大大加速了随机梯度下降(SGD)的收敛[11]。 ReLU在计算上是非常简单的,因为它可以通过激活值阈值设置零来实现。然而,ReLU不再抵抗大梯度流,并且随着权重矩阵的增长,神经元在训练期间可能保持不活动


C. 损失函数


损失函数通过比较输出y相应目标z评估网络性能,定义为


L(yz)= 0
t

1 Lt (yt, zt ), (8)


每个时间步中损失的总和[12]损失函数的选择取决于问题。一些流行的损失函数是用于预测实值的欧几里得距离汉明距离,以及分类问题输出概率分布交叉熵[13]
.


三. TRAININGRECUREANEURALNETWORK


RNN有效训练一个主要问题困难在于正确初始化RNN权重s


网络优化算法调整它们最小化训练损失。网络参数之间的关系和隐藏状态随时间的动态变化会导致不稳定性[4]。 对文献中提出的方法的一瞥表明主要焦点降低训练算法的复杂性,同时加速收敛。然而,通常这样的算法需要大量的迭代来训练模型。 用于训练RNN的一些方法多网格随机搜索,时间加权牛顿优化GD扩展卡尔曼滤波EKF[15],Hessian-free期望最大化EM[16],近似Levenberg-Marquardt[17]全局<sp优化算法。在节中,我们将详细讨论一些se方法详细比较[18]
.


A.初始化


RNN中权重和偏差的计算至关重要的。一般规则为权重分配较小的标准0.0010.01的高斯绘制是合理选择[9],[19]偏差通常设置,但输出偏差可以设置非常[9]然而,参数初始化取决输入数据任务和属性例如维度[9]使用<span id=78>先验知识监督方式其他方法[4]
.


B。基于梯度的学习方法


梯度下降(GD)是深度学习中一种简单而流行的优化方法基本思想通过找到模型中权重矩阵每个成员误差函数导数来调整模型的权重[4]为了使总损失最小化GD<如果线性激活函数可微的,则误差相对于该权重的导数。 GD称为批处理GD,因为它在每次优化迭代中计算整个数据的梯度,以执行单个更新

θt+1 = θt

k
(9)


其中U训练集的大小λ学习率dθ是参数。这种方法对于非常大的数据集在计算上是昂贵并且适合在线训练(即,当输入到达时训练模型)。


由于RNN是一个通过时间的结构,我们需要通过时间扩展GD训练网络称为通过时间的反向传播(BPTT)[20]然而,通过时间计算误差导数困难[21]主要由于参数和动态之间的关系<span RNN的id=40>,这是非常不稳定的使GD无效。随着依赖关系持续时间的增加,基于依赖关系的算法捕获依赖关系[4]损失函数关于权重的导数考虑当前输出相应目标之间的距离,而不使用历史信息进行权重更新[22]。 RNN无法学习长距离时态

4


II:比较主要梯度下降(GD)方法,其中N网络中节点O(·)每个数据点。更多详细信息请参阅[14]
.


方法


描述


优势


缺点


O(·)

RTRL


得到网络状态梯度计算误差梯度


时间t权重时间t-1权重之比


-在线更新weights


-适用在线适配属性应用


-计算复杂度


O(N4
)

BPTT


时间迭代展开


相同权重递归网络转换等效前馈网络,适合


反向传播方法


计算效率


-适用精细培训


-适用在线培训


O(N2
)

FFP


边界递归计算


时间t = 1时反向传播梯度的条件
.


-联机技术


求解梯度


时间上向前递归不是向后递归。


-计算复杂度高于


BPTT


O(N3
)

GF


基于递推误差梯度求解


输出梯度积的方程。


-改善RTRL


计算复杂度


-在线方法


-计算复杂度高于


BPTT


O(N3
)

BU


使用RTRL和BTT方法的某些方面更新每个O(N)数据的权重


-在线方法


-计算复杂度高于


BPTT


O(N3
)

yt

dL dL dL


dh1dhtdh+1

dht+1 dht

xt- 1


时间


3:随着网络随着时间的推移接收新的输入,单元灵敏度衰减(层中较浅的阴影,并且通过时间的反向传播(BPTT)会覆盖隐藏单元中的激活。这导致忘记早期访问的输入。


GD用于训练时的依赖性[4]由于梯度指数衰减因为通过时间反向传播的,称为消失梯度问题。另一种偶然的情况下,反向传播梯度可以指数地爆破,增加了梯度方差,并导致非常不稳定的学习情况,称为梯度爆炸问题[5]这些挑战在本节中讨论主要GD方法比较II基于梯度优化算法概述[18]
.


1)通过时间反向传播BPTT):BPTT


前馈网络反向传播的推广。用于学习RNN的标准BPTT方法及时“展开”网络,并通过时间向后传播错误信号通过1B网络参数视为集合θ ={WHHWIHWHOBHBBO},并且ht作为网络时间t隐藏状态我们可以<span id=65>梯度写成

(10)


其中,在时间t损失函数梯度的展开为:

(11)


哪里




部分

衍生物
(i.e.,
立即

部分

衍生物)。它

介绍如何


参数


set θ
影响


损失

功能



先前

时间步
(i.e.,
k % 3C
t).

为了

运送

通过误差

蒂姆
e

时间步长
t
回来


时间步长
k
我们

可以

(12)


我们可以考虑Eq。作为等式(1)的隐藏状态参数的雅可比矩阵,


其中f(·)函数f(·)的逐元素导数diag(·)对角矩阵


我们通常可以识别隐藏状态s时间在网络中的长期和短期贡献长期依赖性指的输入对应的隐藏状态时间k <<t的贡献,而短期依赖性指的是其他时间[19]3显示随着网络随着时间的推移而进展输入x1在</s的贡献pan>离散时间t1通过时间消失时间步长t +1(层中的深灰变为更高的灰色)。另一方面,损失函数Lt+1相对时间t+1的隐藏状态ht+1贡献


在BPTT中的时间步长过去长得多


2)消失梯度问题根据文献可以通过使用非线性来捕获真实的世界中的数据的复杂模式[6]然而,可能导致RNN遭受消失梯度问题[4]这个问题指的指数</span>它们通过时间传播回来,梯度幅度的收缩。这种现象导致网络的记忆忽略长期依赖性,并且几乎不学习时间上遥远的事件之间的相关性B。原因


1)标准的非线性函数,如sigmoid函数,其梯度几乎处处接近于零
;


2)梯度大小一地乘以

5


递归矩阵,因为是通过时间反向传播。这种情况下,当非递归矩阵的特征值小于1时,梯度迅速收敛到零。通常发生5-10反向传播[6]
.


在长序列上训练RNN(例如,100个时间步),权重小时,梯度会收缩。真实的数的乘积可以分别收缩/爆炸零/无穷大。对于基质,存在相同类比,但是收缩/爆炸沿着沿着一些直接离子发生。[19]证明ρ递归矩阵WHH的谱半径时ρ>1处长期分量t∞爆炸可以使用奇异推广


线性

功能
fH (·)
Eq. (1)
通过

边界


γ R

作为


||γ||γ. (十四)


使用等式(13)雅可比矩阵

,


约束

Eq. (14),
我们

可以

|| hk+1 T ·


卡宾枪


我们可以考虑||

|| δ < 1 s
这种

作为
δ R

每个

步骤
k.
通过

继续


超过

不同

时间步


添加


我们可以得到损失函数分量

||

(
)|| δt-k ||
|| . (16)


这个方程表明随着t-k大,长期依赖性趋向零,瓦尼问题发生。最后,我们可以看到,梯度消失问题出现充分条件递归权重矩阵W HH最大奇异值(即,,λ1


萨蒂斯λ1%3C


[19]第十九章
.


3)爆炸梯度问题:使用BPTT训练RNN的主要问题之一爆炸梯度问题[4]随着权重变得更大,并且<span>的数量增加在长序列训练RNN的过程中可能会爆炸 id=43>训练期间的梯度大大增加。正如[19],这种情况发生的必要条件是λ1>

.


为了克服爆炸梯度问题,最近提出了许多方法2012年Mikolov提出了一种梯度模裁剪方法,以避免在大型数据集上使用BPTT和SGD等简单工具训练RNN时出现梯度爆炸问题[23],[24]在类似方法中,Pascanu通过引入</spa提出了一种与Mikolov几乎相似方法n>作为用于对梯度进行范数裁剪的阈值的超参数[19]。 这个参数可以由算法来设定,但是训练过程不是很敏感


并且对于相当的阈值表现良好。


4)随机梯度下降:SGD(也称为在线GD)GD推广广泛用于机器学习应用[12]SGD鲁棒的,可扩展的,并且在许多不同的领域都表现良好光滑问题<span id=40>到复杂的凸目标。 尽管GD中有冗余计算

L(θt)


(一)

古典

势头.


4.经典动量Nesterov加速梯度格式。


SGD每次执行一次更新[25]对于输入-目标{xkz}其中k{1,.,U},θ中参数根据下式更新

θt+1 = θt λ Lk (17)


这种频繁的更新导致损失函数输出的波动,这有助于SGD探索具有更高多样性的问题景观希望找到更好的局部最小值。适应学习率可以控制SGD的收敛,使得随着学习率的降低探索减少利用增加。可以更快地收敛局部最小值。加速SGD经典技术使用动量,迭代朝向目标持续减少的方向累积速度向量[26]。动量经典版本适用时间<span损失函数L。 id = 88 tA . A . A设置 。of parametersθA . A .


v . v+1=v . v- -λ = λ = λL .( )) ( 18 )


其中,μ L·损失函数梯度μ[0,1]动量系数[9],[12]4aθ参数更新


θt+1= θ+v+1(十九)


通过

考虑
R
作为


条件
number


曲率



最低限度,


势头

可以

大大

加快

收敛

a
当地

最低限度,

要求
R


迭代次数比最速下降检验

到达

同级


精度

[26日]
.


凯斯,



暗示
d

设置


学习


µ = (R 1)/(R
+ 第一章
[26] 重试    错误原因 .

The Nesterov accelerated gradient (NAG) is arst-order optimization method that provides more efficient convergence rate for particular situations (e.g., convex functions with de- terministic gradient) than the GD [27]. The main difference between NAG and GD is in the updating rule of the velocity vector v, as presented in Figure 4b, defined as 重试    错误原因


v . v+1 。=v . v- -λ = λ = λL .( + )v . v)( 20 )


在 哪里 ? 在 哪里 ?The The参数 in 参数 in 参数θAre更新 的 版本使用 usingEq .. ( 19 ). 由 . .ReasonableVigne-Tuningof of of ofThe The动量 ( moment )Coefµ它 是 一 个是 的 , 是 的 。possibleto增加 的 人数The The优化 优化 ( Optimization )per .formance[ 9 ] 。
.


5)小批量梯度洗脱:小批量GD组分


设置训练数据的梯度,其中训练样本典型的批量50B256可以根据不同的应用而变化喂养

6


批量的训练样本加速了GD并且适合图形处理单元(GPU)上的处理负载分布。更新规则B示例之后修改参数,需要等待扫描所有示例例如


θ= θt-1-

(21)


由于基于GD的算法通常依赖梯度瞬时估计,因此它们对于时间序列数据[22]是缓慢的,并且对于n个非函数[28]优化无效=42>速率,这通常棘手的并且取决于应用。


SGD比GD快得多用于跟踪更新。 然而,由于mini-batchGD容易并行化,并且可以利用矢量化实现,因此的性能明显优于GDSGD[25]与SGD相比良好的矢量化甚至可以导致更快的结果此外,非随机初始化方案,例如逐层预训练,可以帮助


优化[29][30]提供更深入分析。
.


6)Adam随机优化:自适应估计(Adam)一种基于一阶矩的优化算法,使用低阶的估计优化随机目标函数[31]需要初始向量m0<span id=41>二阶矢量


时间为0时的v 0。se向量更新


m+1= β1m+(1 - β1g+1(22)



v+1= β2v+(1 - β2)g+1(23)


其中gt+1是损失函数梯度估计值指数衰减建议β1=0.9β2=0.999[31]矩和阶矩估计值偏倚校正


t+1=t+1=v/(1 -β+1),(24)



t+1=v/(1 - β+1)。(二十五)


然后参数更新


θt+1= θt-

(26)


其中,n = 10-8亚当算法实现起来相对简单适用非常数据集[31]
.


C.基于扩展卡尔曼滤波器的学习


卡尔曼滤波基于随时间观察到的一系列测量值来预测系统未来状态的方法,该方法使用贝叶斯推断估计每个时间步长的变量的联合概率分布[32]扩展卡尔曼滤波(EKF)线性版本卡尔曼滤波器放宽了状态转移观测模型的线性前提条件。然而,它们可能反而需要是可微函数。 EKF训练RNN


假设权重的最设置平稳的[22],[33]反向传播相比EKF帮助RNN更快地达到非平稳过程的训练稳态。 它可以在有限数据的训练中优于反向传播算法[15]类似SGD,可以在线方式输入数据训练RNN[33]
.


EKF的一个有效的版本解耦EKF(DEKF)方法,忽略了互斥的权重组相互依赖性[32]这种技术可以降低计算复杂每个训练实例所需的存储。解耦的扩展卡尔曼滤波器(DEKF)扩展卡尔曼滤波器独立地应用每个神经估计馈送它最佳权重。 训练过程建模最优滤波问题。递归有效地计算最小二乘问题的解决方案以最小化数据和曲线之间的平均距离为给定数据集找到最佳拟合曲线时间t,所有提供网络的信息直到时间t使用,包括自学习过程s第一次迭代以来计算的所有导数然而,计算只需要上一步的结果需要存储步骤之后的结果[22]RNN中基于卡尔曼的模型在计算上是昂贵的,并且在过去年中很少受到关注。


D.二优化


优化算法利用函数的二阶导数信息。假设具有良好的展开逼近的二次函数,牛顿方法可以通过向全局最小值移动而比GD执行得更好、更快[34]因为GD中优化方向梯度的,并且在鞍点附近陷入困境</span>局部极值。基于GD模型的另一个挑战学习率的设置,这通常是棘手的,并且依赖于应用程序。然而,方法通常需要计算Hessian矩阵Hessian矩阵的逆,GD方法相比,这在RNN中是一项困难的任务。


一般递归贝叶斯Levenberg-Marquardt算法可以在RNN的递归二阶训练顺序更新权重Hessian矩阵[35]这种方法优于RNN的标准实时递归学习EKF训练算法[35]计算Hessian矩阵挑战<span id=38>时间序列通过引入Hessian自由HF)优化来解决[34]
.


E. 无Hessian优化


一个设计良好初始良好的HF优化器可以很好地优化非凸函数,例如训练深度神经网络的目标函数,给定合理的随机初始化[34]由于RNN时间共享权重HF优化器应该a<span id=40>良好的优化候选[5]通过HF优化训练RNN

7


可以减少基于梯度的优化引起的训练困难艾德[36]通常HF截断牛顿方法在每个更新步骤之前计算Hessian矩阵估计,并且可以考虑曲线的突然变化[19]。 HF优化目标实值光滑目标函数的无约束最小化[28]标准牛顿方法一样,使用局部逼近生成更新建议。属于广泛近似牛顿方法适用非常高维问题例如大型神经网络训练目标[28]
.


通过向HF优化器添加阻尼机制,优化器能够在已知不可能使用GD学习的病理合成数据集上训练RNN[28]乘法RNNMRNN使用乘法称为门控”)连接允许当前输入字符确定一个隐藏状态向量下一个隐藏状态向量的转换矩阵[5]方法通过应用预测文本下一字符任务,展示了使用优化器训练大型RNN强大功能[5],[12]
.


HF优化器可以与现有预训练方法结合使用作为现有预训练方法的替代方案,并且适用性更广泛因为依赖更少关于网络特定结构的假设。 HF优化在大的小批量上运行,并且能够检测权重空间具有非常小的梯度甚至更小的曲率的有希望的方向。 通过使用带有动量的SGD将权重初始化接近的小值,已经实现了类似的结果[9]。
.


F. 全局优化


一般来说,进化计算方法初始化搜索代理的群体,并使其进化找到局部/全局优化[37]这些方法可以解决广泛优化问题,包括多峰,病态,高维,非凸问题然而,进化算法在RNN优化中存在一些缺点包括陷入局部极小值/极大值,收敛速度慢网络停滞。


RNN中参数的优化可以建模一个非线性全局优化问题。用于训练RNN的最常见的全局优化方法遗传算法[38]基于Alopex进化算法(AEA)使用个体权重变化与全局误差度量变化之间的局部相关性,并仅使用局部计算同时更新网络中的所有权重[39]为特定应用选择最佳的神经网络拓扑结构优化网络参数是不同的任务。在[40]中提出了一种混合多目标进化算法,用于训练优化用于时间序列预测的RNN的结构。一些模型同时获得递归网络结构权重[38]。自适应进化策略(CMA-ES)一种全局优化的参数整定方法


关于RNN全局优化方法的已发表文献分散,并且没有受到研究界的太多关注这一不足主要由于这些方法计算复杂然而,计算复杂度方式的此类方法的多代理哲学,例如具有群体大小的模型[42],可能导致比SGD好得多性能


四. REucurénEuroNetworksARchitectures


旨在概述RNN不同架构,并讨论这些模型之间的细微差别


A. 具有多层感知器的深度RNN


神经网络的深层架构可以表示比浅层架构莫尔有效的函数。虽然递归网络在时间上固有深度,因为每个隐藏状态所有先前隐藏状态的函数[43],但已经表明内部计算实际相当[44]。[44]中,有人认为在RNN的过渡阶段添加一个或多个非线性层可以通过更好分解原始输入的潜在变化来提高整体性能。 具有感知器层的RNN中的深层结构可以分为三类:


输入隐藏,隐藏隐藏,隐藏n输出[44]
.


1)深度输入到隐藏:基本思想之多层感知器(MLP)结构引入过渡和输出阶段,分别称为深度过渡RNN深度输出RNN为此,可以引入两个操作符。 第一个加法运算器,它接收个向量,输入向量x隐藏状态h,并返回一个摘要


h =xh。(二十七)


运算符等价Eq。(1)另算子表示为Eq的预测器,其等价于Eq。(3)预测给定摘要h输出


y=0.01h(二十八)


输入数据的高级表示意味着更容易表示数据的时态结构之间的关系。这种技术已经取得语音识别[43]单词嵌入[45]应用中向网络提供原始数据更好的结果。在输入中具有MLPRNN结构隐藏层如图5a所示为了增强长期依赖性,额外连接在输入层隐藏层之间建立了一条捷径,


5b[44]
.


2)深度隐藏到隐藏输出:深度RNN重点隐藏层。级别中,来自先前数据抽象和新输入的数据抽象和/或隐藏状态构造的过程高度线性的MLP可以这种线性函数进行建模有助于RNN快速适应快速变化输入模式,同时仍然具有过去事件良好记忆一个MLP之前

8


(一)

输入


隐藏
. / yt /


(c)第(1)款

隐藏


隐藏


输出.


5:一些具有多层感知器(MLP)的深度递归神经网络(RNN)架构。


图6:通过时间展开的双向递归神经网络BRNN)。


输出5c中给出了一个示例)[44]深度隐藏输出函数可以解开隐藏状态中变化因素,并促进目标的预测。函数具有网络的紧凑的隐藏状态,这可能导致先前输入的有信息量的历史摘要


3)隐藏状态堆栈:构建深度RNN的另一种方法拥有隐藏递归堆栈,如5d所示。这种类型的递归水平鼓励网络在不同的时间尺度上运行,并使能够处理输入序列的多个时间尺度[44]然而,连续隐藏状态之间的转换通常浅的,导致</span>它可以表示的有限函数[44]因此,这个函数不能作为一个通用的近似除非高层反馈层。


虽然为了利用深度网络的贝内而增强RNN已经证明可以产生性能改进,但它表明会引入潜在的问题通过向网络过渡阶段添加非线性现在存在梯度必须通过其返回的附加层。可能会导致梯度消失和爆炸等问题导致网络无法充分捕获长期依赖关系[44]在RNN的过渡阶段添加非线性可以显着增加RNN的性能。降低了网络计算速度额外的显著增加网络训练时间,必须在每次训练迭代时展开,因此不能并行化。

(0,0)


输出层

x2

(i,j)


隐藏层


图7:二维递归神经网络(RNN)中的前向传递序列排序。隐藏层平面内的连接循环的。沿着x1x2的线显示了从左上角开始的扫描带,沿该扫描带沿着观察先前的


B。双向RNN


传统的RNN考虑数据先前上下文进行训练。虽然在语音识别等许多应用中,简单查看先前的上下文足够了,探索未来上下文也很有用[43]。pan>输出延迟一定数量时间帧。然而,这种方法需要为任何实现选择handpicked最佳延迟双向RNN(BRNN)考虑过去和未来的所有可用输入序列估计输出向量[46]为此一个RNN前向时间方向上从开始到结束处理序列。另一个RNN在负时间方向上结束开始向后处理序列,如图6所示状态的输出连接到后向状态的输入,反之亦然,状态神经元之间没有相互作用[46]。
.


6中,向前向后隐藏序列→ ←


分别hh表示时间tT前向隐藏序列计算


h= fH(W

t + W ht-1 + b), (29)


其中t =(1,...,T)后向


h= fH(W

t + W ht-1 + b), (30)


t=(T,...,①的人时间t输出序列yt


y= Wh+Wh+Bo(三十一)


BPTT是训练BRNN的种选择然而向前向后传递过程稍微复杂一些因为状态输出神经元的更新不再一个地进行[46]虽然简单的RNN受到导致当前时间的输入的约束,BRNN通过使用过去未来信息来扩展此模型然而,BRNN缺点它们需要提前知道输入序列开始结束一个例子是通过音素标记口语句子[46]
.


C. 递归卷积神经网络


RNN的流行可以归因序列数据建模的能力。以前检查过型号

9


已经增强了简单RNN底层结构,以提高学习一维序列的上下文依赖方面的性能。然而,存在一些问题,需要理解上下文依赖多个维度。 最流行的网络架构使用卷积神经网络CNN)解决这些问题。


CNN机器视觉应用中非常流行的模型CNN可以多个卷积层组成,可选地在中间具有池化然后完全连接的感知器层[11]。 典型的CNN通过使用卷积层来学习,以使用每层中的共享权重来提取特征特征池化(即,采样)通过降低中间表示(即,特征图)以及输出偏移失真的敏感性。最后一个卷积层提取的特征馈送连接感知器模式l,用于特征的降维分类。


递归连接合并每个卷积层中可以形成递归卷积神经网络RCNN[47] RCNN中单元激活随着时间的推移而演变,因为它们依赖于相邻单元这种方法可以集成上下文信息,重要对象识别任务。方法通过层与层之间的权值共享,在保持参数个数不变的情况下,增加了模型深度使用输出到隐藏输入的递归连接允许网络标签依赖性进行建模,并根据先前的输出平滑自己输出[48]这种RCNN方法允许大输入上下文馈送网络,而<span id=95>限制模型容量。该系统能够以较低的推理代价对复杂的空间依赖关系进行建模。 随着上下文大小随着内置递归的增加而增加,系统会识别并纠正自己的错误[48]二维RNN可以增强CNN长距离空间依赖性的建模[49]这种方法有效全局空间上下文嵌入紧凑局部表示[49]
.


D. 多维递归神经网络


多维递归神经网络


RNN高维序列学习的另一种实现。该网络利用每个维度的循环连接来学习数据中的相关性MDRNN无环RNN[50]的特殊情况,通过D网格[51]替换网络更新的一维链来推广到多维数据这种方法中单个递归连接替换大小为D的递归连接。图7中给出了一个二维示例。在每个时间步的向前传递过程中,隐藏接收外部输入以及从沿着所有维度后退一步自身激活。 在每个时间步的输入先前隐藏激活的组合以输入序列顺序馈送。然后,网络存储产生的隐藏层激活[52]。MDRNN的误差梯度可以用BPTT计算一维BPTT一样,


以前向传递相反顺序ER处理该序列每个时步隐藏接收输出误差导数自己未来导数[52]
.


RNN具有适合多维域的属性,例如扭曲的鲁棒性和上下文的灵活使用。 此外,RNN还可以利用图像分析视频处理中的固有序列模式,这些模式通常其他阿尔奇忽略[53]然而,当试图对多维序列建模时,内存使用可能会成为一个重要的问题随着网络中更多的重复连接增加,网络必须保存保存状态的数量也增加。如果网络中有大量保存的状态,这可能会导致巨大的内存需求MDRNN成为消失梯度的牺牲品,并且可能无法沿着沿着所有维度学习长期顺序信息虽然MDRNN的应用与RCNN一致,但还没有种模型进行任何比较研究。


E. 长短记忆


循环连接可以通过利用它们理解顺序依赖关系的能力来提高神经网络的性能。然而,回流连接产生的记忆可能受到用于训练RNN的算法的严重限制。到目前为止,所有模型成为训练阶段梯度爆炸消失的牺牲品导致网络无法学习数据中的长期顺序依赖关系以下模型是专门解决这个问题而设计的,流行的长短记忆(LSTM)RNN。


LSTM减少消失和爆炸梯度影响的流行最有效的方法之一[54]这种方法将隐藏单元的结构“sigmoid”或“tanh”改变为记忆单元,其中它们的输入和输出门控制。这些控制信息到隐藏的神经元,并保留以前的时间步提取的特征[21],[54]
.


结果表明,对于连续的s序列,LSTM模型的内部可以无限增长[55]即使连续序列具有自然重复的特性,网络无法检测哪些信息不再相关。 遗忘门学习控制存储在存储单元中的值衰减的速率的权重[55]对于输入输出关闭并且遗忘引起衰减的时段存储单元简单随时间保持其值,使得</span>在这些时间段内,误差梯度反向传播期间保持恒定[21]这种结构允许网络潜在记住更长时间的信息。


LSTM在隐藏层中具有高复杂性。 对于相同大小的隐藏层,一个典型的LSTM比一个简单的RNN有大约多的参数[6]提出LSTM方法的目的引入一个可以改善学习长程依赖关系的方案,不是找到最小最优的参数。span>方案[21]与简单的LSTM相比,多维和网格LSTM网络部分增强长期依赖关系的学习,节中讨论。

10

yt
奥普
t Gate


输入ate

xt / ht-1


图8:带有一个cellLSTM内存虚线表示时滞


1)标准LSTM:一个典型的LSTM单元输入组成


忘记输出单元激活组件8所示。这些单元接收来自不同来源激活信号,并通过设计的倍增器控制细胞的激活。 LSTM可以防止网络的其余部分在多个时间步修改存储单元内容LSTM递归神经网络比普通的RNN更长时间地保存信号传播错误这些属性允许LSTM网络处理具有复杂和分离的相互依赖性的数据在一系列序列学习领域中表现出色。


LSTM输入定义


g= σ(WIGx+WHgh1+Wggg1+Bg),(32)


其中WIGi输入输入门的权重矩阵,WHg隐藏状态输入门的权重矩阵,Wggi从单元激活输入门的权重矩阵,并且Bgit输入门的偏置遗忘定义


g= σ(WIGx+WHgh1+Wggg1+Bg),(33)


其中WIG输入遗忘权重矩阵WHgf从隐藏状态到遗忘门的权重矩阵,Wggf单元激活遗忘门的权重矩阵,并且Bgf<span id=42>偏置”忘记门。单元定义


g= gtanh(WIGxt+WHgch1+Bgc+gg1(34)


其中WIGc输入单元门的权重矩阵,WHgc隐藏状态单元门的权重矩阵,并且Bgc是单元门偏置输出定义


g= σ(WIGx+WHgoh1+Wggg+Bgo),(35)


其中WIGo输入输出权重矩阵WHgo隐藏状态到输出门权重矩阵Wggo单元激活输出门的权重矩阵,并且Bgo<span id=43>输出门的偏置。最后,隐藏状态计算


h=gtanh(g)。(三十六)


图9:S-LSTM的一个例子,一个基于树结构的长短记忆网络节点可以考虑来自个后代的信息。其他白色节点的信息被屏蔽。每个箭头处的短线(-)表示一个信息


2)S-LSTM:虽然LSTM内部机制有助于网络学习更长的序列相关性,但可能无法理解比序列更复杂的输入结构S-LSTM模型旨在克服梯度消失问题,并从输入中学习长期依赖关系。 S-LSTM网络S-LSTM存储组成,并基于层次结构工作。一个典型的存储器块由输入输出门组成。在图9所示结构多个后代单元一段时间内的内存递归地反映一个内存单元上方法通过考虑来自树上的长距离的信息(即,分支主体(即,)。典型的S-LSTM具有“sigmoid”功能因此门控信号[0,1]的范围内工作。9显示靠近根的门受到梯度消失问题的影响越小(深色圆圈),而树的较低级别处的分支由于梯度消失而失去了它们的记忆(浅色圆圈)。 可以使用破折号关闭不接收来自较低分支的信号


与递归和LSTM模型相比,S-LSTM方法可以实现竞争性的结果。它具有扩展到其他LSTM模型的潜力。然而,它的性能无法与其他最先进的LSTM模型进行比较。读者可以参考[56]了解有关S-LSTM的更多细节


记忆细胞


3)堆叠的LSTMANN深度思想适用LSTM,通过空间堆叠不同的隐藏LSTM单元增加网络容量[43],


[57]第57段使用等式(1)中的隐藏层的L个LSTM的堆栈中的隐藏层l定义为:


h= fHWIHh-1+WHHh1+B),(37)


其中隐藏向量序列h计算


时间t=(1,...,T)for=(1,.,L)初始隐藏向量序列使用输入序列h0=(x1,...,[43]网络输出为:


y=f0WHOh+B0)。(三十八)


堆栈式LSTM中,堆栈指针可以确定LSTM的哪个单元提供一个单元状态优先级单元。

11


时间步长[58]这样受控结构不仅控制器可以恒定时间堆栈顶部推送dpop而且LSTM可以保持堆栈内容连续空间嵌入[58],[59]
.


堆叠LSTM不同RNN结构的组合用于不同的应用需要研究。一个例子是堆叠LSTM频率的组合


用于语音处理的域CNN[43],[60]
.


4)双向LSTM可以通过称为深度双向LSTMBLSTM的空间中堆叠LSTM单元的隐藏层来增加BRNN的卡帕克容量[43]BLSTM网络单向LSTM网络更强大[61]这些网络理论上</span>在计算过程中涉及输入序列的所有信息BLSTM的分布式表示特性对于不同应用(如语言理解)至关重要[62]BLSTM模型利用了双向RNN部分讨论相同优势同时克服


消失梯度问题


5)多维LSTM:经典的LSTM模型具有由单个遗忘门控制单个自连接它的激活认为一维LSTM。多维LSTM(MDLSTM)使用来自先前单元状态的互连沿着每N个维度沿着扩展LSTM存储器[52],[63]MDLSTM接收N排列中的输入(例如,图像的两个维度)。隐藏状态向量(h1,.,hN记忆向量(m1,.,m,N馈送到阵列的每个输入端内存向量定义

m =

g mj + g g , (39)


其中,k逐元素乘积并且使用等式(32)至等式(34)计算门(36)、[57]
.


空间LSTMMDLSTM[64]的一个特例,用于图像建模的二维网格。模型通过顺序阅读其小邻域像素来生成图像中特定像素隐藏状态向量[64]像素状态通过状态隐藏向量馈送到以下项的因式分解混合来生成


条件高斯尺度混合(MCGSM)[64]
.


6)网格LSTM:随着网格大小LSTM空间深度增加,MDLSTM模型变得不稳定。网格LSTM模型通过改变输出内存向量计算提供了一种解决方案。该方法针对多维数据的深度顺序计算模型LSTM单元沿着输入数据的时空维度以及层之间连接起来。与MDLSTM模型不同,块计算N个变换输出N个隐藏状态向量N个存储器向量。 维度的隐藏状态向量


h= LSTM(H,mWWWWc),(40)


其中LSTM(·标准LSTM过程[57]H输入隐藏状态向量的级联定义


H =[h1,.,hN]T. (四十一)


图10:时间差分回流神经网络(dRNN)架构输入遗忘分别时间-1DoS控制[65]
.


二维网格LSTM网络将LSTM单元沿着空间维度添加堆叠的LSTM。三维更多维LSTM类似于MSLSTM,然而,已经沿着空间深度沿着添加了LSTM单元并且执行N交互。网格LSTM更多细节[57]提供
.


7)差分递归神经网络:LSTM


理解长期序列依赖性方面表现出了更好的学习能力有人认为,其门控机制无法全面区分序列显着显着信息[65]。因此,LSTM无法捕获任务中的时空动态模式例如动作识别[65],其中序列通常可以包含许多着帧。差分递归神经网络(dRNN)涉及检测捕获重要的时空序列以学习输入中动作动态[65]dRNN中的LSTM监控连续帧之间重要运动的信息增益的变化。通过计算隐藏状态s的导数(DoS),可以检测到信息的这种变化。一个的拒绝服务揭示了行为状态的突然变化意味时空结构包含信息动力学。这种情况下,10允许信息更新定义


s=gs1+gs1/2(42)


哪里


s1/2= tanh(Whsht-1+WxsX+Bs)。(四十三)


DoSds/d量化了每个时间t的信息变化小的DoS使存储单元远离输入的任何影响具体地说,单元控制输入


g=σ(Σ
r

0 Wd(
+ Whgi ht-1 + Wxgixt + bgi ),

(44)


遗忘单元作为


g=σ(Σ
r

0 Wd()f
+ Whgf ht-1 + Wxg f xt + bgf ),

(45)


输出单元


g=σ(Σ
r

0 Wd(
+Whgoht-1+Wxgo xt +bgo ), (46)

12


III:主要长短记忆(LSTM)架构之间的比较。


方法


优势


缺点

LSTM


-模型长期依赖性简单RNN更好


-简单RNN鲁棒消失梯度


-由于个存储单元,与简单RNN相比,更高的存储器需求计算复杂度

S-LSTM


-LSTM更好地建模复杂的输入


-LSTM相比计算复杂度更高

Stacked LSTM


-由于更深层次体系结构,对长期顺序依赖进行建模


-由于LSTM单元堆栈LSTM相比,内存需求计算复杂度更高


双向LSTM


-LSTMS-LSTM地捕获输入序列未来过去的下一个


-由于向前向后学习LSTM相比增加了计算复杂度


多维LSTM


-多维序列模型


-由于个隐藏状态向量,内存需求计算复杂度LSTM更高


-随着网格大小深度增加网络不稳定


网格LSTM


-增加网格大小多维序列模型


-由于个递归连接,内存需求计算复杂度高于LSTM


差分RNN


-区分序列显著信息非显著信息


-更好地捕捉空间商业模式


-LSTM相比由于微分运算符而增加了计算复杂度


局部-全局LSTM


-改进了序列的本地全局上下文信息利用


-LSTM相比,由于局部全局参数数量更多因此增加计算复杂度


表示


匹配LSTM


-优化LSTM用于自然语言推理任务


-由于假设前提逐字匹配增加了计算复杂性


频率-时间LSTM


-时间频率模型


-由于建模时间频率参数数量更多因此计算复杂度高于LSTM


其中DoS具有R的上限BPTT可以训练dRNN简单的LSTM相比12dRNN具有更好的训练性能;


然而,具有额外计算复杂度。


8)其他LSTM模型局部-全局LSTMLG-LSTM)架构最初语义对象解析而提出的[66],其目标提高复杂局部(像素邻域全局(整个图像)上下文的利用率。关于图像的每个位置的实际信息。当前版本的LG-LSTM已经将LSTM层的堆栈添加到中间卷积层。 这种技术直接增强了视觉特征,并允许对网络参数进行端到端学习[66]LG-LSTM与各种CNN模型的性能比较显示出精度性能[66]预计模型可以通过用LG-LSTM层替换所有卷积层来实现更大的成功


匹配LSTMmLSTM)最初为了自然语言推理而提出的。匹配机制存储(记住)最终预测关键结果,并忘记不太重要的匹配[62]mLSTM的最后一个隐藏状态有助于预测前提和假设之间的关系。 与其他方法的不同之处在于,mLSTM不是前提假设嵌入整个句子,而是假设前提进行逐字匹配[62]
.


RNN在时间和频率上的递归称为F-T-LSTM[67]中提出。模型通过使用频率LSTM扫描f频带来生成频谱信息的总和玛丽然后输出层的激活作为LSTM的输入频率LSTM的公式类似时间LSTM[67]在降水临近预报输入到状态状态到状态转换中具有卷积结构的卷积LSTM(ConvLSTM)模型[68]中提出。/span>多个ConvLSTM层来构建


11:递归单元GRU)。更新z决定是否用新隐藏状态h更新隐藏状态复位控制是否需要忽略先前隐藏状态


一个的可训练模型[68]III中提供了主要LSTM模型之间的比较

F. Gated Recurrent Unit


虽然LSTM已经被证明是避免梯度消失或爆炸的可行选择,但是它们在其架构中给定多个存储器单元时具有的存储器要求递归单元自适应地捕获门控递归单元GRU不同时间尺度依赖关系[69]类似LSTM单元,GRU具有门控单元可以调节单元内部信息没有<sp其具有分离的存储器单元。与LSTM相比,GRU每个时间步暴露整个状态[70],并计算现有状态计算的状态之间的线性和。GRU的框图11所示。GRU中的激活线性建模

~


h=(1 -zh1+zh(47)


其中更新zt控制激活的更新瓦尔ue定义


z= σ(Wzx+Uzh1),(48)

13


其中WU学习的权重矩阵。候选激活

t
= tanh(Whx+Uhrh1)),(49)


其中rt休息定义为


r= σ(Wx+Uh1(50)


允许单元通过阅读输入序列的第一个符号来忘记先前的状态。GRU网络和LSTM网络之间的一些相似之处差异[69]中概述研究发现,两个模型在某些测试中表现得比另一个更好,这表明无法建议哪个模型好。


G. 记忆网络


传统的RNN具有较小的内存大小存储来自过去输入的特征[71],[72]记忆神经网络(MemNN)利用成功的学习方法进行推理,具有可读可写的记忆组件。 MemNN是一个对象数组输入、响应、生成输出特征映射组件组成[71],[73]将输入转换为内部特征表示,然后根据输入更新记忆。然后,使用输入更新的存储计算输出特征对其进行解码产生输出[71]网络容易使用BPTT进行训练,并且需要每一进行监督[74]MemNN的版本端到端MemNN,可以输入-输出端到端地训练[74]若干时间步生成输出中间步骤使用存储器输入/输出操作更新内部状态[74]
.


递归记忆网络(RMN)利用LSTMMemNN[75]RMN中的内存获取LSTM的隐藏状态,并使用注意力机制其与最近的输入进行比较。RMN算法分析训练模型注意力权重,并随着时间的推移从LSTM中保留信息中提取知识[75]模型语言建模而开发的,并在三个大型数据集上进行了测试艾德。结果表明,该算法的性能与LSTM模型相比,然而,模型继承了LSTM和RMN复杂性需要进一步开发


情景记忆语义情景记忆中获得灵感的,对于大脑中的复杂推理是必要的[73]。 情景记忆称为动态记忆网络框架的记忆,记住自传体细节[73]这种记忆指的存储的经验事实的一般化表征。事实问题为条件的输入中检索出来的。通过对事实的推理,这导致了最终的陈述模块对事实执行多次传递同时关注不同的事实。 每个通道的输出被称为一个片段,汇总内存中[73]与MemNN相关的工作动态记忆网络(DMN)。 MemNN中添加内存组件可以提高学习长期依赖关系性能[71]这种方法已经显示出自然语言问答性能

st

xt


图12:具有上下文特征的递归神经网络长记忆)。


应用[73] MemNN泛化输出特征部分与DMS中情景记忆具有一些类似的功能。MemNN独立处理句子[73],而DMS通过序列模型处理句子[73]FacebookbAbI数据集性能结果显示DMN通过18任务准确超过95%,而MemNN通过16任务准确度[73]情景记忆步骤[73]讨论
.


H.结构约束递归神经网络


另一处理消失梯度问题的模型结构约束递归神经网络(SCRN)。网络B隐藏状态在训练过程中快速变化的观察12所示。[6]在这种方法中通过添加一个特定的递归矩阵来扩展SCRN结构,该矩阵等于识别长期依赖性。连接递归矩阵(称为隐藏层)产生一组快速变化隐藏单元,对角矩阵(称为上下文层)支持上下文单元状态缓慢变化[6]=96>外部输入供电。 虽然这个模型可以防止递归矩阵货车的梯度,但它在训练中有效[6]。这个模型中,对于大小为d字典t是上下文单元状态,定义


s=(1α)Bx+ αs1(51)


其中α上下文权重,通常设置0。95,Bd×s上下文嵌入矩阵x输入。隐藏定义


h= σ(Ps+Ax+Rh1),(52)


其中Ad×mtoken嵌入矩阵,Pp×m是隐藏层和上下文层之间的连接矩阵Rm×m是隐藏h1权重矩阵σ(·“sigmoid”激活函数。最后,输出yt定义为


y= f(Uh+Vs),(53)


其中f“softmax”激活函数UV分别隐藏层上下文层的输出权重矩阵


使用自适应上下文特征进行分析,其中为每个单元学习上下文层的权重捕获上下文

14


IV:主要递归神经网络(RNN)架构之间的比较。


方法


优势


缺点


深度RNN


-解开输入序列变体s


-网络适应快速变化输入节点


-开发紧凑的隐藏状态


-RNN相比由于更多数量参数而增加了计算复杂度


-较深的网络容易受到梯度货车化的影响


双向RNN


-同时时间方向时间方向上进行预测


-必须知道序列开始结束


-RNN相比由于更多数量参数而增加了计算复杂度


复发性


卷积


神经网络


-模拟远程空间依赖


-全局空间上下文嵌入紧凑的局部表示


-激活随着时间的推移而演变


-RNN相比增加了计算复杂度


多维RNN


-模型高维序列


-RNN翘曲鲁棒


-RNN相比增加计算复杂度


-由于多次重复连接显著增加培训测试内存需求


多空


term内存


LSTM


-能够长期连续依赖进行建模


-RNN梯度消失鲁棒


-RNN相比增加计算复杂度


-由于个存储单元,因此内存需求RNN更高


门控

Recurrent Unit


-能够长期连续依赖进行建模


-消失梯度鲁棒


-LSTM更少的内存需求


-由于个隐藏状态向量,比RNN更高的计算复杂度内存需求


递归记忆网络


-能够存储RNN更大内存


-RNN增加内存需求


结构上


约束RNN


-存储RNN更大的内存


-简单RNN消失梯度鲁棒


-培训效率


RNN


-长期序列依赖性进行建模


-消失梯度鲁棒性


-门控RNN架构更少的计算内存需求


-需要更多的研究比较研究


门控正交递归单元


-长期序列依赖性进行建模


-消失梯度鲁棒性


-需要更多的研究比较研究


分层


子采样

RNN


-RNN消失梯度鲁棒


-连续失真敏感


-需要调整窗口大小


不同的时间延迟表明学习回归权重似乎重要,只要一个也使用标准隐藏的模型将上下文层权重固定常数的同时,迫使隐藏单元在同一时间尺度上捕获信息PennTreebank数据SCRN模型进行了评估[6]给出的结果表明,与[3]提出的模型相比,SCRN方法具有更大的增益。此外学习记忆模型声称具有类似的性能,但<span id=91>LSTM模型相比,复杂性更低[6]
.


虽然简单约束添加矩阵导致门控对应物相比计算量更低,但模型训练中效率不高。使用自适应上下文特征的分析表明,只要还使用标准隐藏层,则自循环权重的学习似乎并不重要,其中对于每个单元学习上下文层的权重以从不同的时间延迟捕获上下文。/span>模型[6]中,因此,将上下文层权重固定常数迫使隐藏单元在相同时间尺度上捕获信息。


I.酉递归神经网络


缓解消失扩张梯度问题的一种简单方法在RNN中简单地使用矩阵消失爆炸梯度的问题可以归因隐藏隐藏权重矩阵的特征值,偏离1[76]因此,为了防止这些


偏差得到的特征值,可以用矩阵代替网络中一般矩阵


矩阵是复数域中的正交矩阵[76]它们绝对特征值正好1,这保持了向量流的范数梯度更长的时间步长中传播。导致防止出现消失爆炸梯度问题[77]然而,有人认为,在没有任何消失的情况下反向传播梯度的能力可能导致输出同等地依赖所有输入而不考虑</p>。span>时差[77]导致网络由于存储冗余信息而浪费内存。


酉RNN与以前的架构相比具有显著的优势,这些架构试图解决消失梯度问题。单一RNN架构保持了普通RNN的内部工作,而增加任何额外的内存需求。此外,通过保持相同架构,酉RNN不会显著增加计算成本。


J.门控正交递归单元


到目前为止,RNN的实现已经采取了两种不同的方法解决探索消失梯度的问题。一个实现额外的提高系统的内存,LSTMGRU架构一样。第二种方法利用矩阵保持特征值1的绝对值。

15


门控正交递归单元用正交矩阵替换隐藏状态循环矩阵,并引入ReLU激活函数的增强,允许处理复值输入[77]单元能够使用酉矩阵捕获数据的长期依赖性而</span>利用GRU结构存在遗忘机制[77]
.


K.递阶次采样递归神经网络


研究表明,RNN特别难以学习长序列。虽然以前的架构旨在改变网络的机制以更好地学习长期依赖关系,但存在一种更简单的解决方案,即使用子采样等方法缩短序列。分层子采样递归神经网络(HSRNN)旨在通过使用固定的窗口大小在每个级别执行子采样来更好地学习大序列[78]训练该网络遵循与训练常规RNN相同的过程,基于每个级别的窗口大小进行一些修改
.


HSRNN可以通过简单地用多维窗口替换子采样窗口来扩展到多维网络[78]多维HSRNN中,每个级别在两个独立方向上扫描的递归层组成,其间有一个前馈然而,减少的序列大小HSRNN变得不太稳健的顺序失真。 与其他RNN模型相比,这需要对网络进行大量的调整,因为最佳窗口大小取决任务[78]HSRNN已被证明是学习长序列可行选择因为与它们的同行相比,它们的计算成本较低RNN,无论内部结构如何,都会在序列的每个时间段被激活。 这可能会导致网络学习序列信息的计算成本极高[78]此外,信息可能广泛分散在序列中,从而使相互依赖性更难发现。 表IV中提供了主要RNN架构之间的比较


五、实现欧洲网络均衡化


正则化是通过添加删除信息来控制神经网络的容量,以防止过度拟合。为了更好地训练RNN,部分可用数据认为验证数据集。验证用于观察训练过程,并防止网络拟合拟合[79]拟合训练损失验证损失(包括测试损失)之间的差距,<span id=64>随着训练损失的减少,该值在多个训练时期后增加图13所示RNN r的成功训练需要良好的正则化[80]。本旨在介绍训练RNN的常见正则化方法


A. l1l2


L1正则L2正则方法损失函数加入正则确定某个参数


最佳性能


测试

2> 1


验证


火车


时代


图13:训练神经网络时的过度拟合为了避免过度拟合可以“最佳性能”时期提前停止训练,此时训练损失正在减少验证损失开始增加。


配置,防止系数拟合得如此完美以至于过拟合。方程中的损失函数(8)增加正则化


Lyz=Lyz)+ ηθ(54)


其中θ网络参数(权重)集合η控制正则化参数相对重要性并且

θp =

1/p . (55)


如果p=1,则正则化子L1如果p=2,则正则化子L2L1权重之和L2权重s平方


B。辍学


一般来说dropout在训练过程中随机忽略了网络两层之间的一部分连接。


例如对于等式中隐藏输出(1)我们h=kh(56)


其中k二进制向量掩码,并且k逐元素乘积[81]掩码也可以应用撤回时遵循统计模式。测试过程中,所有单元都被保留它们的激活可能会被加权。


在[82]中引入了一种专门针对RNN的dropout,称为RNNDrop方法每个训练序列的开始处生成单个dropout掩码在序列持续时间内对其进行调整。允许网络连接随时间保持恒定。RNN的dropout的其他实现建议简单地丢弃网络先前隐藏状态在[83]中引入了一个RNNDrop类似的模型,其中不是dropout,而是在每个步骤的每个输入序列中屏蔽数据样本这个小的调整具有RNNDrop竞争的性能。


C. 活化稳定


最近提出的另一正则化方法涉及稳定RNN的激活[84]

16

t t
+1时间


图14:应用于RNN中前馈连接的Dropout循环连接用实线示出连接隐藏单元和输出单元之间的连接虚线示出。隐藏单元输出单元之间的断开连接虚线表示.


稳定器是损失函数的附加成本项定义


其中hth1分别时间tt-1处隐藏激活的向量β控制正则化相对重要性。当推广长期序列时,这个附加稳定隐藏向量的范数


已经进行了其他实现稳定隐藏到隐藏的转换矩阵例如使用正交矩阵,然而,输入非线性仍然可以影响激活方法稳定性语言建模音素识别实验显示这种方法艺术性能[84]
.


D. 隐藏激活P保留


zoneout方法是dropout的一个非常特殊的情况迫使一些单位保持它们在前一个时间步的激活(即,h=h1[85]这种方法随机性(通过添加噪声)注入网络中,使得网络隐藏状态中的s的变化更加鲁棒,帮助网络避免过度拟合Zoneout使用伯努利掩码k修改ht动态


h=kh+(1-k)1(58)


改善了网络中信息[85]Zoneout的性能dropout。然而可以dropout其他正则化方法一起工作[85]
.


六.欧洲电信网络信号


过程


RNN不同领域有着不同的应用,在这方面发表大量的研究文章这一节中,我们回顾了RNN信号处理不同应用特别文本,音频语音,图像,


视频处理。


A. 文本


RNN自然语言处理语言建模中的各种应用而开发的。RNN可以超越n模型广泛用作语言模型[86]然而,RNN计算成本更高


也很难训练在[87]中提出了一种基于输出层因式分解的方法,该方法可以用于语言建模的RNN的训练速度提高100倍。这种方法中单词根据其单字频率分配特定类别,并且只有属于预测类别的单词输出中进行评估[86]HF优化[5]中使用 训练RNN进行字符语言建模。模型使用门控连接允许当前输入字符确定一个隐藏状态向量一个隐藏状态向量的转移矩阵[5]LSTM已经改进了用于语言建模RNN模型,因为它们的能力t<span id=126>o学习序列中长期依赖关系比简单隐藏状态更好[88]LSTM[89]中也被用于生成复杂文本具有长程结构的在线手写序列,只需一次预测一个数据RNN用于捕捉文学作品中的诗歌风格生成歌词例如Rap歌词生成[90]-[92]在文献中提出各种使用RNN的文档分类任务[93]中GRU适于执行文档情感分析[94]中,RCNN用于多个数据集的文本分类。 在这种方法中,通常单词映射特征向量,并且将特征向量序列作为输入传递RNN模型图像作为输入馈送CNNCNN[95]中用于放射学报告进行分类所提出的模型特别开发胸部病理乳房X线照片的报告。然而,RNN尚未用于医学报告解释,并且可能导致非常高的分类概率


B。语音和音频


语音音频信号随时间连续变化音频信号固有顺序性质使RNN成为学习该领域特征的理想模型


直到最近,RNN标记未分割语音数据方面的贡献有限,主要是因为这项任务需要预分割数据后处理产生输出[96]语音识别中的早期模型时延神经网络,通常试图通过ANN提供来利用数据的顺序性质[97]在预测中,BRNN概念引入语音识别[98]后来,RNN与隐马尔可夫模型(HMM)相结合其中HMM充当声学模型RNN充当语言模型[99]。 随着连接主义时间分类(CTC)函数的引入,RNN能够利用分割语音数据的序列学习[96]从那时起RNN语音识别中的普及已经爆发。 然后,语音识别的发展使用CTC功能以及更新的递归网络架构,这些架构对渐变梯度鲁棒以提高性能并在更大的词汇表上执行识别[100]-[102]CTC模型的迭代,例如序列换能器神经换能器[89],</span>[103]

17


已经整合第二个RNN作为语言模型处理在线语音识别等任务。这些增强允许模型不仅基于语言特征,而且基于先前所做翻译来进行预测。


语音情感识别语音识别非常相似,因此必须将语音片段归类为情感艾德。因此语音情感识别发展遵循语音识别相同路径,最初语音应用广泛使用了障碍物[104]。后来,高斯混合模型Gaussianmixturemodels,GMM)因其较低训练要求<span id=54>有效的多模态分布建模[104]然而这些模型通常需要手工制作功能设计的输入数据。因此,我的例子梅尔频率倒谱系(MFCC),感知线性预测(PLP)系数超分段特征[105]随着RNN引入,输入数据趋势开始这种特征工程转变为原始信号作为输入,因为网络本身能够自己学习这些特征从那时起,已经引入了几种RNN模型执行语音情感识别[106]LSTM网络证明具有支持向量(SVM)条件随机场(CRF)更好的性能。 这种改进的性能归因网络通过更好地建模长期依赖性来捕捉情感的能力[107]中,引入用于语音情感识别的深度BLSTM。深度BLSTM能够通过获取更多数量捕获更多信息,而前馈DNN简单使用序列具有最高能量[107]然而,与之前用于语音情感识别RNN相比进行了鉴于模型使用了与之前描述LSTM模型不同的模型,因此无法比较种架构性能更好最近深度卷积LSTM[105]中被改编RECOLA数据集上进行测试时,该模型提供了最先进的性能,因为卷积学习去除背景噪声概述语音中的重要特征LSTM对语音的时间结构进行建模</span> sequencence.


就像语音识别一样,语音合成也需要长期的序列学习。基于HMM的模型通常可以产生听起来不自然的合成语音,这由于模型产生过于平滑的t轨迹作为训练阶段统计平均的结果[108]e表明深度MLP神经网络可以合成语音。然而,这些模型将每个帧视为独立于i相邻的独立实体,并且未能考虑语音顺序性质[108]RNN首先用于语音合成利用这些顺序依赖关系[109],[110]然后替换为<span id=96>使用LSTM模型更好地学习长期顺序依赖关系[111]BLSTM已经证明在语音合成中表现非常因为能够未来过去的时间步长整合相邻关系[112],[113]CNN已经被证明artLSTM模型的状态,


特别是WaveNet模型[114]WaveNet一种引入的CNN,能够使用扩张卷积生成语音。通过使用扩展因果卷积,WaveNet可以通过增加其输入的接受域来建模范围的时间依赖性WaveNet表现LSTMHacker更好的性能[114]
.


复调音乐的建模提出了另一具有内在上下文依赖性的任务。[115]中,引入了受限玻尔兹曼(RBM)相结合的RNN,它能够对音乐曲目中的时间信息进行建模模型具有系列条件RBM这些RBM作为参数馈送RNN因此可以从不同复杂度的钢琴音乐中学习和声和节奏概率规则[115]研究表明RNN模型很难跟踪表明音乐时间结构遥远事件[116]LSTM模型已经应用音乐生成更好学习某些音乐流派长期时间结构音乐(Music)


[116],[117]
.


C. C. Image


学习空间相关性通常是机器视觉主要焦点虽然CNN计算机视觉图像处理中的大多数应用中占据主导地位,但RNN显示出了有希望的结果图像标记图像建模手写识别。


场景标记是指将图像中的每个像素一个类相关联的任务。内在地涉及像素的分类相邻像素的类别相关联。然而,像CNN这样的模型在其模型中使用这些底层依赖关系方面并不完全成功这些依赖关系已经证明在RNN的许多实现中得到了利用图像表示无向循环UCG[118]为了将这些图像馈送到RNN中UCG分解个有向非循环(DAG)近似原始图像。 每个DAG图像都涉及一个卷积层来产生区分性特征映射,一个DAG-RNN建模像素之间上下文依赖关系以及一个去卷积层来特征映射上采样到其原始图像大小。这种实现在流行的数据集上具有比其他状态的rt模型更好的性能,例如SiftFlowCamVidBarcelona[118][49]中示出了类似的实现,其中不是图像分解个DAG,而是首先将图像馈送到</span>CNN提取局部补丁的特征,然后将其馈送2D-RNN这个2D-RNN类似简单的RNN,除了能够在二维中存储隐藏状态两个隐藏的神经元不同的方向流向同一个神经元,以创建隐藏记忆。为了整个图像进行编码,选择多个起始创建同一像素的多个隐藏状态这种架构通过引入2D-LSTM单元来进一步发展,更好地保留长期信息[119]图像建模为图像分配概率分布的任务。 RNN自然是图像建模任务的最佳选择,因为它具有用作

18


生成模型 深度递归注意力书写器(DRAW)结合了一种新的空间注意力机制,该机制模拟了人眼的视觉中心并结合了一个顺序变分自动编码框架,该框架允许迭代构建复杂图像[120]使得所有像素单个潜在分布上建模。DRAW模型通过首先相互独立地生成场景的各个部分来生成图像,然后再进行精细化迭代最近引入PixelRNN,涉及LSTMBLSTM,已经显示出建模具有可扩展性的自然图像方面的改进[121]PixelRNN使用多达12个2LSTM每个层都一个输入到状态组件一个递归</span>状态到状态分量。然后,这些组件确定每个LSTM内部的门为了计算这些状态,使用掩蔽卷积沿着图像维度之沿着收集状态。模型具有MNISTCIFAR-10数据集上评估的其他最新模型更好的对数似然核心虽然PixelRNN在MNIST数据集上表现比DRAW更好,但两个模型之间没有比较


手写识别图像处理和序列学习的结合。这个任务可以分为两种类型,在线识别精细识别。考虑到字母序列中的上下文依赖性,RNN在这项任务中表现良好[122]对于在线手写识别任务,笔尖的位置间隔记录这些位置映射单词序列[122][122]中BLSTM模型引入用于在线手写识别。模型的性能优于传统的HMM模型,因为它能够利用过去未来时间步长的信息。BLSTM在与概率语言模型结合并使用CTC训练时表现良好。 对于精细的手写识别,只有手写图像可用。为了解决这个问题,MDLSTM用于2输入转换1序列[52]。然后数据通过MDLSTM层次结构逐渐减小数据大小虽然这些任务通常使用CNN来实现,但有人认为由于这种网络中没有经常性的连接CNN不能用于草书手写识别,除非首先进行分割[52][52]中提出的MDLSTM模型提供了一个简单的解决方案,它不需要分段输入,并且可以学习长期的时间依赖性。


[123]中开发了递归生成网络,以自动从压缩线测量中恢复图像。在该模型中,开发了一种新的近似学习框架该框架采用ResNets对近似进行建模,并使用像素感知代价的混合进行训练。 [124]中开发了深度卷积生成对抗网络生成阿尔蒂正式胸片,用于胸片中的自动异常检测模型可以扩展具有空间和时间依赖性的医学图像模态,例如使用RCNN的头部共振成像(MRI)由于RNN可以非线性动态系统建模


RNN架构可以潜在地增强


这些模型。


D. 视频


视频图像序列(即,),其中帧与每一帧中的像素之间分别具有时间空间相依性视频文件单个图像的像素要多得多,导致处理它的参数和计算成本更大。 虽然使用RNN视频执行了不同的任务,但它们视频描述生成中最为普遍。应用涉及图像处理和自然语言处理的组件。 [125]中提出的方法用于视觉特征提取的CNN能够特征解码自然语言字符串的LSTM模型相结合,称为长期递归卷积网络。span id=112>(LRCN)。然而,模型不是端到端的解决方案,并且需要CNN生成的特征的监督中间表示。这个模型建立[126]中,引入能够端到端训练的解决方案。该模型使用LSTM模型,该模型直接连接深度CNN。模型在[127]中得到了进一步改进其中引入了用于特征提取三维卷积架构然后,这些特征馈送基于软注意机制的LSTM模式l,以动态控制来自多个视频帧的信息流。其他类型信号相比,RNN视频处理方面进展较少时域信号处理带来了新机会。


空间机器学习


七. C.结论可能方向


本文中,我们系统地回顾了RNN的主要最新进展的文献,并介绍了具有挑战性的问题,在训练RNN。RNN指的阿尔蒂正式神经网络,它们之间具有循环连接。循环连接学习输入序列或时间序列数据之间的依赖关系。 学习顺序依赖关系的能力使RNN语音识别、语音合成、机器视觉视频生成等应用中越来越受欢迎


其中一个主要的挑战训练RNN是学习数据中长期依赖关系通常是由于在RNN的训练过程需要很长一时间内优化大量参数而发生的。本文讨论为解决与RNN训练相关的问题而开发的几种架构和训练方法。以下开发RNN一些主要机会挑战


·BPTT算法引入促进了RNN的有效训练然而这种方法引入梯度消失爆炸问题。RNN的最新进展旨在解决这个问题。然而,这些挑战仍然是训练RNN主要瓶颈


·门控机制允许RNN学习长期序列依赖性方面取得了突破。

19


LSTMGRU等架构已在各种应用中显示出显著的性能。然而,这些架构比简单的RNN引入了更高的复杂性和计算降低这些架构内部复杂性可以帮助减少网络的训练时间


·酉RNN通过引入能够学习长期依赖关系的简单阿尔奇,潜在地解决了上述问题。通过内部权值矩阵表示,该结构在保持简单RNN复杂性同时,提供子更强的建模能力。进一步研究酉RNN的使用可以帮助验证相对于门控RNN的性能


种正则化方法dropout,activationstabilizationactivationpreservation,被用于RNN以避免过拟合。虽然这些方法已经证明可以提高性能,没有正则化RNN的标准。RNN正则化的进一步研究可以帮助引入的正则化方法。


RNN具有三维医学图像中学习特征的巨大潜力,例如头部MRI扫描,肺部计算机断层扫描(CT)腹部MRI。这样的模态中,图像之间时间依赖性是非常重要的,部分地对于癌症检测是非常重要的


分割。


参考文献


[1]Y. 莱昆湾,巴西-地BengioG. 欣顿,深度学习,”自然卷。521,no. 7553,pp. 436-444,2015年。


[2] G. E.欣顿,S.奥辛德罗Y.- W. Teh,“Afastlearningalgorithmfordeepbeliefnets”,Neuracomputationvol. 号18第7页。第1527-1554页,2006年。


[3] Y. 本焦,Boulanger-Lewandowski,R. Pascanu“Advancesinoptimizingrecurrentnetworks”,声学,语音和信号处理(ICASSP),2013年IEEE国际会议。IEEE,2013,pp. 8624-8628.


[4] Y. Bengio,P. Simard,and P. Frasconi,“Learninglong-termdependence-encieswithgradientdescentisdifficult,”IEEEtransactions on neuralnetworks,vol. 5,no. 第2页。157-166,1994年。


[5]一. Sutskever,J. MartensG. E. 欣顿,“Generatingtextwithrecurrentneuralnetworks”,inProceedings of the 28thInternationalConferenceonMachineLearning(ICML-11),2011,pp1017-1024。


[6]T. Mikolov,A. Joulin,S. 乔普拉,M. Mathieu和M. Ranzato,“Learning longer memory in recurrent neural networks,”arXivpreprintarXiv:1412.7753,2014.


[7]S. Haykin神经网络一个全面的基础普伦蒂斯霍尔PTR1994。


[8] T. 米科洛夫,M。卡拉菲亚特Burget,J. Cernock,yS. Khudanpur,“基于递归神经网络语言模型”。inInterspeechvol2,2010,p. 3.


[9]一.放大图片作者:J. DahlG.欣顿,“关于深度学习中初始化和动量的重要性国际机器学习会议,2013年,1139-1147页。


[10] Y.本焦湾LeCun. “Scalinglearningalgorithms towardsai,”Large-scalekernelmachinesvol. 34,no5,pp1-41,2007.


[11]A.克里热夫斯基岛Sutskever和G. E.欣顿,“Imagenet classi ficationwith deep convolutional neural networks”,神经信息处理系统进展,2012年,1097-1105页。


[12]一. Sutskever,“训练循环神经网络”,多伦多大学多伦多安大略省,加拿大,2013年。


[13]一. GoodfellowY. BengioACourville深度学习MITPress,2016,http://www.deeplearningbook. org.


[14] R.威廉姆斯和D. Zipser,递归网络及其计算复杂性的基于递归的学习算法”,反向传播理论架构应用第1卷433-486页,1995年。


[15] G. Puskorius和L. A. Feldkamp,“神经控制非线性动态系统与卡尔曼滤波训练的递归网络”,IEEE神经网络学报。5,。2,279-297页,1994。


[16] S. Ma和C. Ji,“A艾德艾德approach onfast training offeedforward andrecurrentnetworksusing emalgorithm,”IEEEtransactions onsignalprocessing,vol. 46,no. 第8页。2270-2274,1998。


[17]第十七话W. Chan和C.- C. 史多,以块对角近似法训练递归网路”,神经网路,1999。IJCNN'99. 国际联合会议三卷IEEE,1999,pp. 1521-1526.


[18]第十八话Ruder,梯度下降优化算法概述”,arXiv预印本,arXiv:1609.04747,2016年。


[19] R.帕斯卡努,T. Mikolov和Y. Bengio,训练递归神经网络的困难”,在2013年国际机器学习会议上,pp. 1310-1318.


[20] P. J. Werbos,“Backpropagationthrough time:what it doesand howtodo it”,ProceedingsoftheIEEE,vol. 78,no. 第10页。1550-1560年,1990年。


[21]问。V. Le,N.(1995 - 1996),巴西,巴西-地Jaitly和G. E.欣顿,“一种简单的方法来初始化rectified艾德线性单元的递归网络”,arXiv预印本arXiv:1504.00941,2015。


[22]J. A. P'erez-Ortiz,F. A. Gers,D. EckJ. Schmidhuber,“卡尔曼滤波器传统递归网络无法解决的问题中提高了lstm网络的性能”,Neural Networksvol. 号16第2页。241-250,2003年。


[23]T. 米科洛夫岛,意-地萨特斯凯弗A. Deoras,H. S. LeS. KombrinkJ. Cerebrsky,“Subwordlanguagemodelingwithneuralnetworks”,预印本http://www.适合。vutbrcz/imikolov/rnnlm/charpdf,2012.


[24]第二十四话Mikolov和G. Zweig,“上下文依赖递归神经网络语言模型”。拉克萨火山12,第234-239页,2012年。


[25]Y. A. 勒昆博图B。奥尔K。- R. 缪勒效率


神经网络:交易技巧》(NeuralNetworksTricksoftheTradeSpringer2012,


pp. 9-48.


[26] B. T. Polyak,加速迭代法收敛的一些方法”,苏联计算数学数学物理,第4卷,第10号。第5页。1964年1月17


[27] A. Cotter,O.沙米尔河Srebro和K. Sridharan,“Bettermini-batchalgorithmsviaacceleratedgradientmethods,”inAdvances in neuralinformationprocessingsystems,2011,pp1647-1655.


[28] J. 马滕斯Sutskever,“用无hessian-free optimization训练深度递归网络”,神经网络:贸易技巧,第2009页。479-535,2012年。


[29]第二十九话放大图片作者简介:黄志光Popovici和H. Larochelle,“深度网络的贪婪逐层训练《神经信息处理系统进展》,2007年,153-160页。


[30]L. BottouStochasticlearning,”inAdvancedlecturesonmachinelearning. Springer,2004,pp. 146-168.


[31] D. Kingma和J. Ba,“AdamA methodforstochasticoptimization”,arXiv预印本arXiv:1412.6980,2014。


[32] S 收看卡尔曼工业神经网络WileyOnline Library2001年


[33]中国农业大学学报. J. 威廉姆斯,“使用扩展卡尔曼滤波器训练递归网络神经网络1992年。IJCNN.,国际联合会议。4. IEEE1992,241- 246页。


[34] J. Martens,“Deep learning via hessian-freeoptimization”,第27届国际机器学习会议(ICML-10)论文集,2010年,pp. 735-742.


[35] D. T. Mirikitani和N. Nikolaev,“Recursive baidu recursive neuralnetworksfortime-seriesmodeling,”IEEETransactionson NeuralNetworks,vol. 21,no. 第2页。262-274,2010年。


[36] J. Martens和I. Sutskever,“Learning recurrentneural networkswithhessian-freeoptimization”,inProceedingsofthe28thInternationalConferenceonMachineLearning(ICML-11),2011,pp1033-1040.


[37] H.萨利赫内贾德Rahnamayan和H. R. Tizhoosh,“微差分进化:多样性增强和比较研究”,应用计算。52,pp812-833,2017.


[38]P. J. Angeline,G. M. SaundersJ. B。Pollack,“Anevolutionaryalgorithm that constructs recurrent neural networks,”IEEE transactionsonNeuralNetworksvol. 5,第1期54-65页,1994年。


[39] I'm sorry. UnnikrishnanK. P. Venugopal,“Alopex:前馈和递归神经网络基于相关性的学习算法”,神经计算。6,。3,469-490页,1994年。

20


[40] C. Smith和Y. Jin,“用于时间序列预测的递归神经网络集成的进化多目标生成”,神经计算卷。第143页。302-311,2014.


[41]A.田中T. Moriya,T. Shinozaki,S.渡边,T. Hori和K. Duh,“长短期记忆神经网络语言模型的进化优化”,美国声学学会期刊,卷。140,no. 4,pp. 3062-3062,2016年。


[42] H. 萨利赫内贾德Rahnamayan,H. RTizhooshS. Y. Chen,“Micro-differentialevolutionwith vectorized random mutation factor,”inEvolutionaryComputation(CEC),2014 IEEECongressonIEEE,2014,pp. 2055-2062.


[43] A. 格雷夫斯,阿- R. MohamedG. Hinton,“Speechrecognitionwithdeeprecurrent neural networks”,Acoustics,speechandsignalprocessingicassp),2013年IEEE国际会议IEEE2013,pp. 6645-6649.


[44]美国帕斯卡努古尔塞尔ChoY. Bengio,“Howtoconstructdeep recurrent neural networks,”arXivpreprint arXiv:1312.6026,2013.


[45]I'm sorry. 米科洛夫岛,意-地萨特斯凯弗角,澳-地Chen,G. S. Corrado和J. Dean,单词短语的分布式表示及其复合神经信息处理系统的进展,2013年,第100页。3111-3119.


[46] I'm sorry. SchusterK. K. Paliwal,“Bidirectionalrecurrentneuralnetworks,”IEEETransactionsonSignalProcessingvol. 45,第11期2673-2681页,1997。


[47]美国。梁和X。Hu,“Recurrent convolutional aneuralnetworkforobjectrecognition”,inProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition2015,pp. 3367-3375.


[48] P.平埃罗和R. Collobert,“Recurrent convolutional neural networksforscenelabeling”,2014年国际机器学习会议,第10页。82-90.


[49] B'm sorry. 绍伊Z. Zuo和G. Wang,“用于图像标记的Quadirectional2d-recurrentneuralnetworks”,IEEESignalProcessingLettersvol.号22第11页。1990-1994年,2015年。


[50] P. BaldiG. Pollastri,大规模递归神经网络架构的原则设计-dag-rnns蛋白质结构预测问题”,机器学习研究杂志第4卷第11期。Sep,pp. 575-602,2003年。


[51] A.格雷夫斯,S。Fern 'andez和J. Schmidhuber,多维递归神经网络”,2007年。[联机]。可用网址:http://arxiv.org/abs/0705.2011


[52] A. Graves和J. Schmidhuber,使用多维递归神经网络进行手写识别”神经信息处理系统的进展,2009年,第100。545-552.


[53]F. Visin,K. 卡斯特纳,M。马特乌奇,阿. CourvilleY. Bengio,“Renet:一种基于递归神经网络卷积网络替代方案”,arXiv预印本arXiv:1505.00393,2015。


[54] S. Hochreiter和J. Schmidhuber,“长短时记忆”,神经计算,第9卷,第100期。第8页。1735-1780年,1997年。


[55]F. A. Gers,J. SchmidhuberF. 康明斯,“学习获取使用lstm的连续预测”,1999年。


[56]第五章Zhu,P. SobihaniH. Guo,“Longshort-termmemoryoverrecursivestructures,2015年国际机器学习会议,第100页。1604-1612.


[57] N. 卡尔希布伦纳DanihelkaA. Graves,“Gridlongshort-termmemory,”arXivpreprintarXiv:1507.01526,2015.


[58] I'm sorry. Yao,T.科恩,K.Vyl omova,K.Duh和C.Dyer,"Depth-gated lstm," arXiv preprint arXiv:1508.03790,2015.


[59] I'm sorry.巴列斯特罗斯角,巴西-地Dyer和N. a. Smith,"Improved transition based parsing by modeling characters nstead of words with lstms," arXiv preprint arXiv:1508.00657,2015.


[60] O. 阿卜杜勒-哈米德R. 穆罕默德,H. Jiang,G. Penn,“Applyingconvolutional neural networks conceptsto hybrid nn-hmmmodelforspeechrecognition”,inAcousticsSpeechandSignalProcessingICASSP),2012IEEEInternationalConferenceonIEEE,2012,pp4277-4280。


[61] A. GravesJ. Schmidhuber,使用双向lstm和其他神经网络架构的帧式音素分类”,神经网络,卷。号18 第5页。602-610,2005年。


[62] S. Wang and J. Jiang,“Learningg natural language inference with lstm,”arXivpreprintarXiv:1512.08849,2015.


[63] A. 格雷夫斯,S。费尔南德斯和J. Schmidhuber,“Multi-dimensionalRecursiveNeuralNetworks,”arXivpreprintarXiv:0705.2011v12007.


[64] L. TheisM. Bethge,“使用空间lstms的生成图像建模神经信息处理系统进展,2015年,第100页。1918-1926.


[65]第六十五话Zhuang和G.- J. Qi,“Differentialrecurrent neural networks foraction recognition”,IEEEInternationalConferenceonComputerVision,2015,pp. 4041-4049.


[66]第六十六X。LinSYan使用局部-全局短期记忆进行语义对象解析,”arXiv预印本arXiv:1511.04510,2015年。


[67]J. Li,A.穆罕默德,G. Zweig和Y. Gong,“Lstm Time and FrequencyRecurrencefor AutomaticSpeechRecognition,”2015.


[68]第二章施,Z. Chen,H. 王维,D.- Y. 杨,W。-K W- C. Woo,“Convolutionallstmnetwork:Amachinelearningapproachforprecipitationnowcasting,”arXivpreprintarXiv:1506.04214,2015.


[69]第六十九话古尔塞尔角Cho和Y. Bengio,“控递归神经网络对序列建模的经验评估”,arXiv预印本arXiv:1412.3555,2014。


[70] I'm sorry. 周,B。货车Merrienboer,D. BahdanauY. Bengio,“Onheproperties ofneural machinetechnology:Encoder-decoder approaches”,arXivpreprintarXiv:1409.1259,2014。


[71]J. 韦斯顿,S. ChopraA. Bordes,“Memorynetworks,”arXivpreprintarXiv:1410.3916,2014.


[72] J. 韦斯顿,A. 南博德斯Chopra和T. Mikolov,“Towards ai-completequestionanswering:asetofpremisestoytasks,”arXivpreprintarXiv:1502.05698,2015.


[73]A.库马尔湖,澳-地Irsoy,J. Su,J. Bradbury,R.英语,B。皮尔斯
,


翁德鲁斯卡岛Gulrajani,R. Socher,“Ask meanything:Dynamicmemorynetworksfornaturallanguageprocessing,”arXiv preprintarXiv:1506.07285,2015.


[74] I'm sorry.苏赫巴托,韦斯顿,R. Fergus等人,“端到端记忆网络”,神经信息处理系统的进展2015年,第100页。2431-2439.


[75] I'm sorry. Tran,A. Bisazza,C. Monz,“Recurrentmemorynetworkforlanguagemodeling,”arXivpreprintarXiv:1601.012722016.


[76]I'm sorry. Arjovsky,A. 还有Y。Bengio,“酉进化递归神经网络”2016年国际机器学习会议,第10页。1120-1128.


[77] I'm sorry. 京角,加-地Gulcehre,J. Peurifoy,Y.沈,M。泰格马克,M。Soljaci 'c,和damy。Bengio,“门控正交循环单元:学习忘记”,arXiv预印本arXiv:1706.02761,2017。


[78]A. 格雷夫斯监督序列标记循环神经网络。施普林格科学&商业媒体,2012年,第一卷385.


[79]C. M. Bishop模式识别机器学习Springer2006。


[80] N. Srivastava,“Improvingneuralnetworkswithdropout,”Universityof多伦多,vol. 182,2013年。


[81] I'm sorry. 范,T. 布鲁什Kermorvant和J. Louradour,“Dropout改进手写识别递归神经网络”,


2014年第14届手写识别国际会议(ICFHR)IEEE,2014年,第285比290。


[82] I'm sorry. 穆恩,H。崔,H。我。Song,“Rnndrop:Anoveldropoutforrnnsinasr,”inAutomaticSpeechRecognitionandUnderstandingASRU),2015IEEEWorkshoponIEEE,2015,pp. 65-70.


[83] S. Semeniuta,A. SeverynE. Barth,“Recurrentdropoutwithoutmemoryloss,”arXivpreprintarXiv:1603.051182016.


[84] D. Krueger和R. Memisevic,“Regularizing rnns by stabilizingactivations,”arXivpreprintarXiv:1511.08400,2015.


[85]D. 克鲁格,T. 作者J. 佩泽什基巴拉斯R. KeA. GoyalY. BengioH. 拉罗谢尔CourvilleetalZoneoutRegularizingrnnsbyrandomlypreservinghiddenactivations,”arXivpreprintarXiv:1606.01305,2016.


[86] I'm sorry. Mikolov,A. Deoras,S. 孔布林克BurgetJ. 埃尔诺克,y,


“先进语言建模技术的经验评估和组合”,国际语音通信协会第十二届年会,2011年。


[87] I'm sorry. Mikolov,S. 孔布林克湖Burget,J. ernock,yS. 库丹普尔,


递归神经网络语言模型的扩展”,声学,语音和信号处理(ICASSP),2011IEEE国际会议IEEE,2011年,第31.联合国儿童基金会


[88] I'm sorry. 桑德迈尔Schl& quot;uterH. Ney,“Lstmneuranet-worksfor language modeling”,2012年国际语音通信协会第十三届年会


[89] A. Graves,“Generatingsequenceswithrecurrentneuralstroks,”arXivpreprintarXiv:1308.0850,2013。


[90] X. ZhangM. Lapata,递归神经网络生成中国诗歌”。在EMNLP2014中,pp. 670-680。


[91] P. Potash,A. RomanovA. Rumshisky,“Ghostwriter:usinganlstmforautomaticraplyricgeneration,”inProceedings of the2015Conference onEmpiricalMethods in NaturalLanguageProcessing2015,pp. 1919-1924年。

21


[92] I 'M sorry. 加兹维内贾德十世K·奈特创作主题诗歌。”EMNLP2016,1183-1191页。


[93]D. ,B。QinT. LiuDocument使用门控递归神经网络进行情感分类建模参见EMNLP2015,1422- 1432页。


[94] I'm sorry. LiuandZhaoRecurrentconvolutionalneuralnetworksfortextclassification.”AAAIvol333,2015,pp2267-2273中。


[95]H. SalehinejadJ. Valaee,E. 科拉克A MnatzakanianT. Dowdell,“使用深度神经网络解释乳房X线照片胸部X线照片报告-初步结果”,arXiv预印本arXiv:1708.092542017。


[96]A. 格雷夫斯S. 羊齿GomezSchmidhuberConnection-isttemporalclassification:labelingunsegmentedsequencedatawithrecurrentneuralnetworks,”23届国际机器学习会议论文集ACM2006,369-376页。


[97]A. Waibel,T. 花泽欣顿K. ShikanoKJ.Lang,“Phonemerecognitionusingtime delayneuralnetworkworks,”IEEEtransactionsonacoustics,speech,andsignal processingvol. 37岁,不。第3页。328-339,1989年。


[98]I'm sorry. Schuster,“用于语音识别的双向循环神经网络”,技术报告TechRep.,1996.


[99]H. A. BourlardNMorgan连接主义语音识别混合方法2012&年,《科学》杂志,第247卷


[100]A. GravesNJaitly“使用循环神经网络实现语音识别31届机器学习国际会议论文集(ICML-14)2014,1764-1772页。


[101]H. 萨克SeniorFBeaufays基于长期短期记忆递归神经网络架构用于大容量语音识别,“arXiv预印本arXiv:1402.11282014。


[102]D. 作者J. SerdyukP.BrakelYBengio基于注意词汇量语音识别


声学,语音信号处理(ICASSP),2016年IEEE国际会议IEEE2016,4945-4949页。


[103]N. JaitlyD. 苏西洛角V.LeO. 维尼亚尔斯SutskeverandSBengioAneuraltransducer,”arXivpreprintarXiv:1511.048682015.


[104] I'msorry. ElAyadiM. S. KamelFKarray关于语音情感识别的调查特征分类方案数据库,“模式识别第44卷第3期572-587页,2011年。


[105]G. TrigeorgisF. 林格瓦尔布鲁克纳A. 尼古拉B。SchullerS. Zafeiriou,“再见功能使用深度卷积递归网络的端到端语音情感识别,声学,语音和信号处理(ICASSP),2016年IEEE国际会议IEEE2016,5200-5204页。


[106]I'm sorry. W?ollmer,F. Eyben,S. Reiter,B. 舒勒考克斯,E. 道格拉斯-考伊R.Cowie,“放弃情感类--通过远程依赖建模实现连续情感识别”2008年国际语音通信协会第九届年会。


[107]J. 塔舍夫使用递归神经网络进行语音情感识别的高级特征表示. INTERSPEECH2015,1537-1540页。


[108]I'm sorry. 范·Z 贝克·J KwokKAHeller的Fastsecondorder stochastic backpropagationfor variableinference,“在神经信息处理系统的进展2015年,1387-1395页。


[109]O. Karaali,G. 科里根GersonN. Massey,“Text-to-SpeechConversion withNeural Networks:ARecurrentTDNNApproach,”arXivpreprintcs/98110321998.


[110]C. TuerkT罗宾逊,“Speechsynthesisusing阿尔蒂官方神经网络trainedoncepstralcoefficients.”1993年欧洲语。


[111]H. ZenHSak的Unidirectionallong-short-termmemoryrecurrentneural network withrecurrentoutputlayerforlow-latency speechsynthesis,”Acoustics,SpeechandSignal Processing(ICASSP)中,2015IEEEInternationalConferenceonIEEE2015,4470-4474页。


[112]I'm sorry. ,Y。福L. XieFK. SoongTtssynthesiswithbidirectionallstm basedrecurrent neural networks”,2014年国际语音通信协会第十五届年会


[113]I'm sorry. 费尔南德斯伦德尔B。RamabhadranRHooryProsody


轮廓预测长期短期记忆,双向,深度递归神经网络Interspeech2014,2268-2272页。


[114]A. D. 奥德S. 迪勒曼·H ZenK 西蒙尼扬维尼亚尔斯格雷夫斯,北卡尔希布伦纳KKavukcuogluWavenetAgenerativemodelforrawaudio,”arXivpreprintarXiv:1609.034992016.


[115]I'm sorry. Boulanger-LewandowskiY. BengioandPVincentModelingtemporaldependenciesin high-dimensional sequences:Applicationto polyphonic musicgenerationandtranscription,”arXiv preprintarXiv:1206.63922012.


[116]D. EckandSchmidhuber“Afirstlookatmusiccompositionusinglstm recurrent neural networks,”IstitutoDalle MolleDiStudiSullIntelligenza阿尔蒂ficialevol103,2002.


[117]--,在音乐中寻找时间结构蓝调即兴与lstm经常性网络,"在神经网络信号处理,


2002. 2002年第12IEEE研讨会论文IEEE2002,747-756页。


[118]B'm sorry. 绍伊Z. B。WangGWangDag-用于场景标记的递归神经网络,”IEEE计算机视觉模式识别会议2016年的会议记录中,3620-3629页。


[119]I'm sorry. Byeon,T. M. Breuel,F. RaueMLiwickiScenelabelingwithlstm recurrent neural networks,”在2015年IEEE计算机视觉模式识别会议论文集,3547-3555页。


[120]I'm sorry. 格雷果丹尼赫尔卡格雷夫斯J. RezelandandDWierstra“Draw:Arecurrentneuralnetworkforimagegeneration,”arXivpreprintarXiv:1502.046232015.


[121]A. D. 奥德KalchbrennerKKavukcuogluPixel循环神经网络,”arXiv预印本arXiv:1601.067592016。


[122]A. 格雷夫斯利维奇·H 邦克·J SchmidhuberSFernandez“Unconstrainedon-linehandwritingrecognitionwithrecurrentneuralnetworks”,《神经信息处理系统进展》,2008年,577-584页。


[123]I'm sorry. Mardani,H. Monajemi,V.Papyan,S. Vasanawala,D. DonohoJ. Pauly,用于近端学习和自动压缩图像恢复的循环生成广告对抗网络”,arXiv预印本arXiv:1711.100462017。


[124]H.H. SalehinejadS 瓦莱道德尔,E。ColakBarfett使用生成对抗网络对X射线中胸部病理学分类的深度神经网络进行泛化”,arXiv预印本arXiv:1712.016362017。


[125]第125话:我的世界安妮·亨德里克斯,S. 瓜达拉马罗尔巴赫Venu-gopalan,K. Saenko和T. Darrell,“Long-term recurrentconvolutionalnetworksforvisualrecognitionanddescription”,inProceedingsoftheIEEEconference oncomputervisionandpattern recognition,2015,pp2625-2634.


[126]I'm sorry. Venugopalan,H. 多纳休罗尔巴赫MooneyK. Saenko,“Translating videos to naturallanguage usingdeep recurrentneuralnetworks,”arXivpreprintarXiv:1412.47292014.


[127]I'm sorry. Yao,中国山核桃A. 托拉比N 巴拉斯LarochelleA. Courville,“结合时空特征软注意力机制的视频描述生成”,arXiv预印本arXiv:1502.080292015。