为什么深层神经网络(DNN)的特定架构有效,而有些架构却没有?
批量归一化和跳过连接的作用是什么?
回答这些问题是研究的一个热门话题,有很多危险。实际上,这些答案将推动对DNN的理论理解,并可能促进其设计的进一步改进。
批归一化由于其诸多良好性能,已经是深度神经网络的标配,关于批归一化的理解,大家可以参考文章透彻分析批归一化Batch Normalization强大作用。这里咱们花点时间,重点说一下跳过连接。
跳过连接
ResNet是第一个提出残差连接的概念,跳过连接有两个非常好的性能:

  • 他们通过允许梯度通过这条可选的捷径来缓解梯度消失的问题
  • 它们允许模型学习一个恒等函数,该函数确保高层的性能至少与低层一样好,而不是更差。
事实上,跳过连接被用于更多的模型架构中,比如全卷积网络(FCN)和U-Net。在许多生成对抗网络中,不乏U-Net的身影。它们用于将信息从模型中的较早层传递到较晚层。在这些体系结构中,它们用于将信息从下采样层传递到上采样层。
如何评估架构的质量?
首先,第一个关键观察是从输入到输出的任何DNN映射都需要指定两个元素:
(1)体系结构;
(2)架构内的模型参数值 - 权重和偏差。通过修复体系结构并改变体系结构内的模型参数而获得的所有DNN映射的集合被称为假设类。
假设类的目的是对训练施加约束。实际上,训练包括同时找到DNN映射:(1)属于假设类; (2)同意培训数据。
DNN映射必须属于假设类的这种约束,是表达真实映射本身属于假设类的先验知识的一种方式。基本上这种先验知识使得仅使用训练数据来引导测试数据成为可能。
出于这个原因,先验知识通常被称为归纳偏差。
回到我们的初始目标,我们可以通过评估其归纳偏差的质量来评估架构的质量。可以使用以下过程执行此评估:修复体系结构并在体系结构内随机采样模型参数。如果使用此过程采样的大多数DNN映射具有不良属性,则意味着存在对不良属性的归纳偏差,即在训练期间将偏向于不良属性。反过来,这将导致要么untrainability -即欠拟合-差性能的表现就是与低训练损失不兼容,或低的泛化 -即过拟合-差性能的表现就是低的训练损耗,但不可能一概而论。
在能够应用此过程之前,我们仍然需要更精确地确定DNN映射的"不良属性"的概念。
DNN映射的不良属性是什么?
让我们考虑一个固定的DNN映射,通过修复体系结构和修复体系结构中的模型参数来指定。 此固定DNN映射接收随机输入,并在其整个层中传播此输入。我们通过定义来跟踪传播:

  • 随机信号:


通过应用固定DNN映射,Φ^l到l层再到到随机输入X

  • 随机噪声:


从随机输入x的随机损坏dx到L层的损坏。
现在,DNN映射的"不良属性"可以被定义为信号和噪声的不希望的行为:信号y ^ l变得无意义,或者噪声d y^l失控。更确切地说,可以定义两种"病理学",将这种"不良特性"推向极端(我们关注这两种"病理学",因为它们是在我们的背景下观察到的,但其他"病理学"可以在其他情境中定义和观察):


病理信号:信号y^l失去其方差方向并在高深度沿着单线集中。该病理学例如与多类分类的单热目标不相容(具有通常等于类的数量减去1的方差的多个方向)。对这种病理学的归纳偏向可能导致无法治愈。

病理性SNR



  • 病理SNR:所述噪声d ÿ ^l爆炸相对于所述信号ÿ ^l,与信噪比SNR ^l与指数衰减升。这种病理学可能与低训练损失兼容,但是测试集上的任何输入损坏d x都将导致信号损坏y ^ l + d y^l变为纯噪声 - 即无意义。对这种病理学的归纳偏见可能导致不良的泛化。
将我们的程序应用于各种体系结构
现在让我们使用我们的程序来处理卷积 DNN的各种体系结构- 包括完全连接的DNN作为空间大小等于1的特殊情况 - 具有ReLU激活功能:

  • 没有批归一化且没有跳过连接的DNN遭受病理信号 - 即在高深度处y^l的方差方向接近1



  • 无批归一化但有跳过连接的DNN同样地遭受病理信号 - 在高深度 ý ^l接近1



  • 有归一化和无跳过连接的DNN患上病态SNR - 即SNR^l / SNR^0 呈指数衰减



  • 有批归一化和与跳过连接从不遭受病理-在所有深度表现良好
这是怎么回事 ?

导致病理学的主要力量是前馈层组成的多重性 (Conv和ReLU层可以分别看作乘以随机矩阵和乘以伯努利随机向量):

  • 没有跳过连接的DNN 在高深度上是病态的,因为它们受到简单的前馈多重性的影响
  • 没有批归一化和跳跃连接的DNN在深度上是病态的。由于残差和跳跃连接分支的方差大致相等,不能有效地对抗前馈乘法
  • 由于残余和跳跃连接分支之间的信号方差衰减率∝1/(l+1)有效地抵消了前馈乘法,因此具有批归一化和跳跃连接的DNN在所有深度都保持良好的行为。
结论

  • 批归一化和跳过连接的组合,编码了深网中表现良好的感应偏差
  • 然而,这些技术的好处很难解开。只有当它们组合在一起时 - 通过将残余分支稀释到跳过连接分支中 - 它们才会抵消前馈多重性