标签平滑


标签平滑缓解过拟合及其数学原理

标签平滑(Label Smoot缓解过拟合hing)是一种正则化技术,主要用于分类问题中,通过调整模型的目标函数来减少过拟合的风险。它的核心思想是不让模型对训练样本的预测过于自信,从而鼓励模型学习到更加泛化的特征。

标签平滑如何缓解过拟合

  1. 降低模型的置信度:在传统的分类任务中,我们通常使用one-hot编码作为目标标签。这意味着对于每个样本,真实类别的概率被设为1,而其他所有类别的概率都被设为0。这会导致模型试图完美地拟合训练数据,可能会导致过拟合。标签平滑通过将硬标签(hard labels)替换为软标签(soft labels),即把真实类别的概率调整为一个小于1的值,而其他类别的概率分配一个大于0的小值,这样可以防止模型对训练数据过度自信,促使模型学习更鲁棒的特征表示。

  2. 增加模型的泛化能力:通过引入这种不确定性,标签平滑鼓励模型不仅仅依赖于训练集中的特定模式,而是去学习更具普遍性的特征,这有助于提高模型在未见过的数据上的表现。

数学原理

假设原始的类别标签是one-hot向量y,其中正确类别的元素为1,其余为0。在应用标签平滑后,新的标签$\tilde{y}$ 变为:

$ \tilde{y}_i = (1 - \epsilon) \cdot y_i + \frac{\epsilon}{K} $

这里,K是类别总数,$\epsilon$是一个介于0和1之间的平滑参数,决定了标签被“平滑”的程度。当$ \epsilon = 0 $时,退化为原始的hard label;当$\epsilon $接近1时,标签变得非常模糊,几乎失去了类别信息。通常,$\epsilon$的值设置得较小,比如0.1。

从损失函数的角度来看,如果我们使用交叉熵损失函数,则原始的损失计算方式为:

$L = -\sum_{i} y_i \log(p_i)$

采用标签平滑后的损失函数变为:

$L_{smooth} = -\sum_{i} \tilde{y}_i \log(p_i)$

这里$p_i $是模型预测的概率分布。因此,标签平滑实际上改变了损失函数的形式,使得优化过程更加关注那些不太可能正确的类别,减少了对训练样本的过度拟合,提高了模型的泛化能力。


Author: qwq小小舒
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint policy. If reproduced, please indicate source qwq小小舒 !
  TOC