•
从贝叶斯的角度来讲,正则化项通常都包含一定的先验信
息,神经网络倾向于较小的权重以便更好地泛化,但是对偏
置就没有这样一致的先验知识。另外,很多神经网络更倾向
于区分方向信息(对应于权重),而不是位置信息(对应于
偏置),所以对偏置加正则化项对控制过拟合的作用是有限
的,相反很可能会因为不恰当的正则强度影响神经网络找到
最优点。
• 过拟合会使得模型对异常点很敏感,即准确插入异常点,导
致拟合函数中的曲率很大(即函数曲线的切线斜率非常
高),而偏置对模型的曲率没有贡献(对多项式模型进行求
导,为 W 的线性加和),所以正则化他们也没有什么意
义。
• 有时候我们会用到其他类型的正则项,例如
L1
正则项,它
将参数元素的绝对值全部加起来-然而,在实际中很少会用
L1
正则项,因为会令权值参数变得稀疏。在下一部分,我
们讨论 dropout ,这是另外一种有效的正则化方法,通过
在前向传播过程随机将神经元设为 0
• Dropout 实际上是通过在每次迭代中忽略它们的权值来实
现“冻结”部分 unit 。这些“冻结”的 unit 不是把它们设为 0
,而是对于该迭代,网络假定它们为 0 。“冻结”的 unit 不
会为此次迭代更新。
2.3 Dropout
Dropout 是一个非常强大的正则化技术,是 Srivastava 在论文
《Dropout: A Simple Way to Prevent Neural Networks from
Overfitting》中首次提出,右图展示了 dropout 如何应用在神
经网络上。
这个想法是简单而有效的——训练过程中,在每次的前向/反向
传播中我们按照一定概率
(1−)
随机地“ drop ”一些神经元子
集(或者等价的,我们保持一定概率
的神经元是激活的)。
然后,在测试阶段,我们将使用全部的神经元来进行预测。使用
Dropout 神经网络一般能从数据中学到更多有意义的信息,更
少出现过拟合和通常在现今的任务上获得更高的整体表现。这种
技术应该如此有效的一个直观原因是, dropout 本质上作的是
一次以指数形式训练许多较小的网络,并对其预测进行平均。
❐ ↑Dropout applied to an artificial
neural network. Image credits to
Srivastava et al.【 Dropout 应 用 于
人 工 神 经 网 络 。 图 像 来 源 于
Srivastava 等人。】