AI

深度学习之暂退法

动手深度学习

Posted by LXG on March 12, 2026

几何理解

在深度学习中,暂退法(Dropout) 是一种非常经典且高效的正则化技术

dropout_fun

绿虚线(无 Dropout):你会发现它在数据点之间频繁地“上下跳跃”。在几何上,这意味着它的曲率(Curvature)非常大。它记住了每一个数据点的扰动,这在处理没见过的数据时表现会很差。

蓝实线(有 Dropout):虽然它没能 100% 穿过每一个点,但它的走势非常稳健、平滑。

  • 几何理解:因为训练时随机丢弃了神经元,模型无法利用“特定路径”去死记硬背。它被迫学习一种“平均特征”
  • 结果:流形表面的褶皱被磨平了,剩下的就是数据中最核心的线性规律。

偏差-方差权衡(Bias-Variance Tradeoff)

线性模型(高偏差,低方差):

  • 偏差(Bias):由于模型太简单(比如只能画直线),它对复杂规律有“成见”,根本学不会。
  • 方差(Variance):因为它简单,不管你换哪一批数据训练,它画出来的直线都差不多,表现很稳定。

神经网络(低偏差,高方差):

  • 偏差(Bias):几乎可以模拟任何函数,只要给它数据,它能学会最精细的细节。
  • 方差(Variance):由于太灵活,它会把特定数据集里的随机噪声也当成规律记下来。换一批数据,它学出来的规律可能完全不同。

为什么深度网络能学到“特征交互”?

线性模型像是在做加法:$y = w_1 x_1 + w_2 x_2 + \dots$。每个特征的贡献是独立的。

神经网络通过多层嵌套和激活函数(如 ReLU),实质上在做乘法或非线性逻辑判断:

  • 第一层:检测是否包含“尼日利亚”。
  • 第二层:检测是否包含“西联汇款”。
  • 第三层(交互):如果(第一层=1 且 第二层=1),则输出“垃圾邮件”。