标签平滑缓解过拟合及其数学原理

标签平滑（Label Smoot缓解过拟合hing）是一种正则化技术，主要用于分类问题中，通过调整模型的目标函数来减少过拟合的风险。它的核心思想是不让模型对训练样本的预测过于自信，从而鼓励模型学习到更加泛化的特征。

标签平滑如何缓解过拟合

降低模型的置信度：在传统的分类任务中，我们通常使用one-hot编码作为目标标签。这意味着对于每个样本，真实类别的概率被设为1，而其他所有类别的概率都被设为0。这会导致模型试图完美地拟合训练数据，可能会导致过拟合。标签平滑通过将硬标签（hard labels）替换为软标签（soft labels），即把真实类别的概率调整为一个小于1的值，而其他类别的概率分配一个大于0的小值，这样可以防止模型对训练数据过度自信，促使模型学习更鲁棒的特征表示。
增加模型的泛化能力：通过引入这种不确定性，标签平滑鼓励模型不仅仅依赖于训练集中的特定模式，而是去学习更具普遍性的特征，这有助于提高模型在未见过的数据上的表现。

数学原理

假设原始的类别标签是one-hot向量y，其中正确类别的元素为1，其余为0。在应用标签平滑后，新的标签$\tilde{y}$ 变为：

$ \tilde{y}_i = (1 - \epsilon) \cdot y_i + \frac{\epsilon}{K} $

这里，K是类别总数，$\epsilon$是一个介于0和1之间的平滑参数，决定了标签被“平滑”的程度。当$ \epsilon = 0 $时，退化为原始的hard label；当$\epsilon $接近1时，标签变得非常模糊，几乎失去了类别信息。通常，$\epsilon$的值设置得较小，比如0.1。

从损失函数的角度来看，如果我们使用交叉熵损失函数，则原始的损失计算方式为：

$L = -\sum_{i} y_i \log(p_i)$

采用标签平滑后的损失函数变为：

$L_{smooth} = -\sum_{i} \tilde{y}_i \log(p_i)$

这里$p_i $是模型预测的概率分布。因此，标签平滑实际上改变了损失函数的形式，使得优化过程更加关注那些不太可能正确的类别，减少了对训练样本的过度拟合，提高了模型的泛化能力。

qwq小小舒

https://js6288.github.io/2025/03/20/%E6%A0%87%E7%AD%BE%E5%B9%B3%E6%BB%91/