Learning from Noisy Labels with Decoupled Meta Label Purifier（使用解耦元标签净化器从带噪标签中学习。）

type

status

date

slug

summary

🤔 摘要：

使用带噪标签训练深度神经网络（DNN）是具有挑战性的，因为DNN很容易记忆不准确的标签，导致泛化能力较差。最近，基于元学习的标签纠正策略被广泛采用，通过识别和纠正一小部分干净验证数据中潜在的噪声标签来解决这个问题。虽然使用净化后的标签进行训练可以有效地提高性能，但解决元学习问题不可避免地涉及模型权重和超参数（即标签分布）之间的嵌套双层优化循环。为此，以往的方法采用交替更新的耦合学习过程。本文通过实证发现，这种同时对模型权重和标签分布进行优化的方法无法实现最佳路径，从而限制了骨干支撑和修正标签精度的表示能力。基于这一观察，提出了一种新的多阶段标签净化器，称为DMLP。DMLP将标签纠正过程分解为无标签表示学习和简单的元标签净化器，从而可以在两个不同的阶段上专注于提取判别性特征和标签纠正。DMLP是一个即插即用的标签净化器，净化后的标签可以直接在朴素的端到端网络重新训练或其他强健学习方法中重复使用，在几个合成和真实的噪声数据集上取得了最先进的结果，尤其是在高噪声水平下。

📝介绍

深度学习在各种识别任务上取得了重大进展，其成功的关键在于可靠注释的大规模数据集的可用性。然而，收集这样的数据集非常耗时且昂贵。获取带有标签的数据的简便方法，例如网络爬虫，不可避免地会产生带有噪声标签的样本，这些样本不适合直接用于训练DNN，因为这些复杂模型容易记忆噪声标签。面对这个问题，提出了许多带噪标签学习（LNL）方法。经典的LNL方法侧重于识别带噪声样本，并通过丢弃或赋予较小的重要性来减少其对参数更新的影响。然而，在极其嘈杂和复杂的情况下，这种方案很难实现，因为没有足够的干净数据来训练判别分类器。因此，提出了标签纠正方法，通过将噪声标签修正为正确的底层标签来增加干净训练样本。其中，基于元学习的方法通过采用一个小的干净验证集，并将噪声标签作为超参数，从而提供了对干净样本底层标签分布的合理指导，从而实现了最先进的性能[9,16,25]。然而，这种元净化不可避免地涉及模型权重和超参数（如图1（a）所示）之间的嵌套双层优化问题，这在计算上是不可行的。因此，采用模型权重和超参数之间的交替更新来优化目标[9,16,25]，从而实现了表示学习和标签净化的耦合解决方案。

实证观察。直觉上，对一个大的搜索空间（模型权重和超参数）进行替代优化可能会导致次优解。为了研究这种近似对鲁棒性学习结果的影响，我们在CIFAR-10 [14] 上采用最近的标签净化方法 MLC [40] 和 MSLC [9] 进行经验分析，并得出如图2所示的观察结果。

耦合优化阻碍了修正标签的质量。我们首先比较耦合的元纠正器MLC及其极度解耦的变体，其中模型权重首先在有噪声标签的情况下优化70个时期并固定，然后在验证集的指导下对标签进行净化。我们采用已更正的标签的准确性来衡量清洗的性能，从图2（a）中可以清楚地观察到，与解耦后的对照组相比，联合优化导致更劣化的修正表现，而这些错误修正将反过来影响耦合优化中的表示学习。

耦合优化阻碍了表示能力。我们通过评估从图2(b)中提取的特征的线性概率准确性[6]来研究表示质量。我们发现联合训练的表示质量一开始就差得多，这导致后期的表示学习缓慢而不稳定。为了进一步研究对表示学习的影响，我们还采用经过自监督学习[5]良好预训练的骨干来初始化，最近的研究[39]表明预训练表示对LNL框架非常有帮助。然而，我们发现这个结论并不严格适用于耦合元标签纠正器。如图2(c)所示，通过比较MLC / MSLC的分类器的分类准确性，我们观察到，如果模型权重仍与超参数耦合，则预训练模型只能带来微小的改善。相反，当骨干的重量被固定并与标签净化和分类器解耦时，改善变得更加显著。

解耦元净化。

从上面的观察中，我们发现元纠正器的模型权重和超参数之间的解耦对标签准确性和最终结果至关重要。因此，在本文中，我们旨在将元标签净化器与表示学习分离，并设计一个简单的元标签净化器，相比于现有的复杂元网络[9, 40]，更加友好于标签分布问题的优化。因此，我们提出了一种通用的多阶段标签纠正策略，名为Decoupled Meta Label Purifier（DMLP）。DMLP的核心是基于元学习的标签净化器，然而，为了避免使用带耦合解求解双层优化问题，DMLP将该过程分解为自监督表示学习和一个线性元学习器来适应基础的正确标签分布（如图1（b）所示），从而将标签净化阶段简化为单级优化问题。这个简单的元学习器设计了两个相互加强的纠正过程，分别称为内在主要纠正（IPC）和外在辅助纠正（EAC）。IPC在全局范围内稳步净化标签，而EAC通过使用IPC更新后的标签进行训练来加速净化过程。这两个过程可以增强彼此的能力，形成标签纠正的正向循环。我们的DMLP框架具有灵活的应用性，净化后的标签可以直接用于朴素的端到端网络重训练，也可以用于提高现有LNL框架的性能。在包括CIFAR的嘈杂版本和Clothing1M等主流数据集上进行的广泛实验表明，DMLP具有优势。总的来说，本文的主要贡献包括：

我们分析了在强健学习中标签纠正的解耦优化的必要性，基于此提出了DMLP，一种灵活且新颖的多阶段标签净化器，用解耦的方法解决双层元学习问题，其中包括表示学习和非嵌套的元标签净化；

在DMLP中，提出了一种新颖的非嵌套元标签净化器，配备了两个纠正器IPC和EAC。IPC是全局且稳定的纠正器，而EAC通过使用IPC更新后的标签进行训练来加速纠正过程。这两个过程形成了一个正向的训练循环，以学习更准确的标签分布；

使用从DMLP净化标签训练的深度模型在几个合成和真实世界的嘈杂数据集上达到了最先进的结果，在各种类型和级别的标签噪声下，尤其是在高噪声水平下。提供了广泛的消融研究以验证有效性。

🤗3 方法

3.1. 元标签纯化的分离解决方案

首先，为方便起见，DMLP内的符号被澄清。嘈杂的训练数据集被表示为，其中是第i个实例的图像和损坏的标签，c是类数。同样，一个小的干净验证数据集被表示为。表示数据集大小，。下标表示数据来自训练集或验证集。

典型的基于元学习的纯化需要在模型权重和超参数上解决双层优化问题，其目标为：

其中和分别表示模型权重和元超参数。在经典的标签纯化流程中，被重新参数化为有噪声标签分布的函数，即。和是不同数据集上的损失函数。由于两个损失项都不是解析的且涉及到 DNN 的复杂正向传递，因此解决嵌套优化目标是计算昂贵的。同时，交替一步近似 [9,25] 由于耦合更新而无法保证优化方向是最优的。相反，为了避免在大范围的网络参数 w 上进行耦合优化，我们在 DMLP 中通过自监督权重制定元学习目标，如下所示：

其中，预训练特征提取器被设计为提取维图像表示。为了获得高质量的表示，这些提取出来的特征被应用于对比自监督学习框架 [5,6] 中，以更新参数作为无噪声标签的预训练。随后，建立的特征提取器可以学习到一个在高维特征空间中分离度很高而且不受噪声影响的图像数据描述符 [37]。通过这种方式，我们将表示学习与噪声标签纠正分离，同时保持了特征的强分离性。

此外，由于特征具有代表性和可分离性，损失项和可以使用简单的风险估计函数（如线性判别）来制定，而不是使用复杂的 DNN 正向传递，使得可以以非嵌套的方式通过解析解来解决等式 (2) 的问题，将在第3.2节中介绍。

3.2. 非嵌套元标签净化器

为了解决等式 (2) 的纯化问题，我们提出了两个相互加强的解决方案，寻找纯净的训练标签，如图3所示，这是内在主要校正（IPC）和外在辅助校正（EAC）过程。内在主要校正。IPC旨在以缓慢稳定的方式执行全局标记纯化。具体而言，如图3（a）所示，将一批训练数据的特征和标签汇集为矩阵和，如下：

由于特征描述符具有代表性，我们假设存在一个简单的线性估计变换，可通过岭回归准确地预测分类分布：

其中，是 softmax 函数沿分类维度以满足规范化约束，是一个缩放因子。通过通过最小二乘法解决等式 (4) 的线性回归问题，我们可以获得其在训练batch上的闭式解，并通过从验证集中的样本进行线性回归，推导出其最优预测：

直观地讲，预测结果和的实际标签之间的差异是由中潜在的噪声造成的，因此我们将预测差异作为标签纯化的目标：

其中，表示输入分布的熵作为正则化项来尖锐化预测标签分布[35]。通过等式 (5) 和等式 (6)，可以通过一批训练标签在分析形式表达验证损失，因此可以通过梯度反向传播从等式 (6) 中稳定地纠正存在噪声的标签，使得纠正速率可通过来计算

外部辅助修正。为了加快标签修正过程，进一步提出了一种外部修正方法。具体来说，我们会训练一个伴随着线性分类器，其中是可学习参数，通过IPC更新了标签：

其中是来自IPC的更新的训练标签，是交叉熵损失函数。由于伴随的线性分类器在中本质上具有噪声标签鲁棒性[24]，因此它可以快速实现高精度的校正。借此直觉，定期使用分类器的预测结果进行标签校正，具体地，的更新规则在每个迭代步骤时转换为动量更新：

其中，和是更新的周期和动量，是任意正整数，用于表示EAC更新的第n次。从全局的角度来看，在经过T次训练的迭代之后，EAC通过模仿IPC逐步更新的标签很快实现了局部最优标签估计，这反过来通过提供更清洁的训练标签来促进IPC的标签校正。随后，IPC和EAC形成了一个正向循环，在相互提高标签校正质量方面得到了改进。

3.3. DMLP的应用

DMLP是一个灵活的标签纯化器，纠正后的训练标签可以在鲁棒学习场景下以不同的方式应用，如图3所示。带有DMLP的Naive分类网络。简单直接的方法是使用纯化后的标签用交叉熵（CE）重新训练神经网络，我们把这种简单的应用称为DMLP-Naive。使用DMLP增强的LNL框架。由于纯化后仍可能存在少量的噪声或不正确的标签，因此使用DMLP的另一种有效方法是将纯化后的标签作为现有LNL框架的新训练样本。在本文中，我们用DMLP扩展了一些经典框架[12,15,19,30]，增强的LNL方法用“DMLP-”（例如“DMLP-DivideMix”，“DMLP-ELR+”等）作为前缀来表示。

4 实验

CIFAR-10/100。对于自监督预训练阶段，我们采用流行的SimCLR算法[5]和ResNet作为骨干网络。元学习器中的分类器使用Adam优化器进行了100个周期的训练。为了进行公平比较，采用ResNet18作为最终的DivideMix算法。 ηI 和ηE分别设置为0.01和1.0。缩放因子α设置为1.0。为了保证公平性，我们按照以前的基于元学习的LNL方法[8,9]的协议，随机选取1000幅图像作为CIFAR-10/100 [14]的干净验证集，其余则作为训练样本。我们严格遵循了[12]的协议来生成标签噪音。具体来说，对称噪音通过均匀地替换标签为其他类别中的一个来生成，而非对称噪音则将标签扰动为它们相似的类别，以模拟现实世界场景中的标签噪音。我们的实验在不同的噪声率下进行：π ∈ {20％，50％，80％，90％}用于对称噪声，π ∈ {20％，40％}用于非对称噪声。

clothing1m.第一阶段在Clothing1M数据集上，使用官方的MoCo-v2来训练ResNet50，以充分发挥其在大规模数据集上的优势。之后，元学习器进行了50个时期的训练。对于DMLP DivideMix，采用ResNet50，并使用来自前几个阶段的权重进行初始化，然后进行80个时期的训练。由于空间限制，我们将更详细的实验设置和每个比较的LNL方法的描述放在了补充材料中。

实验结果

与最先进方法的比较。我们将我们的方法与多个近期竞争方法在各种噪声环境下进行比较（这些方法的详细描述在补充材料中提供）。测试精度的最佳值和最后一个时期的结果都进行了报告。如表1所示，即使简单的DMLP-Naive方法已经可以与大多数方法取得竞争力的结果，在噪声环境非常恶劣的情况下优势更加明显，进一步地，DMLP-DivideMix在所有设置下都实现了最先进的性能。值得注意的是，直接使用验证数据来训练DivideMix（即DivideMix*）只会带来微小的改进，而使用DMLP提供的净化标签时，则会获得显著的提高，这表明DMLP在从验证集解决LNL问题方面是有效的。另一方面，尽管存在其他利用验证集的元学习方法[9，16，40]，但DMLP在它们的方面显示出了很大的优势。值得注意的是，与原始的DivideMix相比，我们的方法的净化版本（DMLP-DivideMix）在结果上取得了更好的效果，这表明我们的方法的净化标签对于提升LNL框架更加友好。表2展示了与最新方法在非对称噪声的CIFAR-10数据集上的比较结果。DMLP DivideMix在不同的噪声比率下比REED高出0.2％和2.7％，并且相对于其他方法获得了更大的改进，表明DMLP在处理更难的语义相关噪声方面具有优异的能力。最后，与其他竞争者相比，基于DMLP的方法对于不断增加的噪声比例的影响较小，表明它对变异噪声水平的鲁棒性。除了人工噪声，我们还在大规模真实世界噪声数据集Clothing1M上评估了DMLP。如表3所示，简单的DMLP-Naive方法可以优于所有其他方法，而DMLP-DivideMix则将准确度提高了约0.46％。结果表明，DMLP更适合处理来自真实世界的噪声。

标签纠正准确性。图4比较了我们的元学习器中的标签纠正准确性与在CIFAR-10上的全联接净化器MLC和MSLC。具体而言，使用纠正后的伪标签的one-hot形式与地面真实情况进行了比较。如图4所示，在低噪声情况下，标签可以迅速纠正到92％以上的准确性。对于严重的标签噪声，DMLP仍然可以改善标签准确性，类似于低噪声情况。DMLP内部的整体纠正标签准确性均优于其他竞争者，在所有噪声设置下均有优势（更详细的实验结果可以在补充材料中找到）。DMLP的一般性。为了验证DMLP的泛化能力，除了DivideMix外，另外三种流行的LNL方法，ELR+ [19]、Co-teaching [12]和CDR [30]，也被采用来与DMLP的净化标签合作。如表4所示，所有DMLP的应用在其相应的基线之上表现出更好的结果，特别是在高水平噪声情况下。值得注意的是，由于CDR高度依赖早期停止技术，在训练过程中存在严重的记忆效应，导致最终结果和最后性能之间存在差异。相反，当我们使用我们的净化标签来训练CDR时，这种差异几乎消失了，这表明DMLP输出的标签质量更好，可以抑制记忆效应，从而减轻对早期停止的依赖。因此，结果表明，DMLP的净化标签对于提升LNL框架具有更好的友好性。更详细的实验结果可以在补充材料中找到。

4.3. 去除受损标签的研究

对不同标签纠正过程的分析。

在表格5中，我们探讨了IPC和EAC对DMLP-Naive表现的影响。当其中一个过程被排除时，其他过程得到的更新标签被应用于重新训练一个新模型。我们发现，EAC在低噪声情况下表现良好，因为它固有的鲁棒性，随着噪声比例的增加，性能迅速下降。另一方面，IPC对高水平噪声更为稳健，但与完整的DMLP流程相比存在较大差距，因为它的优化过程缓慢。相反，当IPC和EAC协作时，DMLP可以实现最优结果。

与其他已预训练耦合净化器的比较。

为了仅评估分离净化对性能的影响，我们使用相同的自监督预训练权重训练两个耦合的元标签纠正方法MLC和MSLC，并将它们校正后的标签应用于Naive训练或DivideMix以进行公平比较。

如表6所示，虽然自监督权重可以稍微提高耦合标签正确器的性能，但它们的性能仍然存在很大差距，特别是在高噪声情况下。此外，当将经过更正的标签进一步应用于主流LNL框架DivideMix时，我们的方法还可以在所有噪声设置中始终优于耦合对手，证明我们的更正标签质量更好。因此，这些结果验证了优越性主要归因于分离标签纠正而不是自监督预训练。

不同特征表示对净化的影响。

功能质量在DMLP的标签更正过程中起着至关重要的作用，因为所学功能的分布与高维空间中线性估计假设的合理性息息相关。因此，我们研究了不同特征对性能的影响。具体而言，研究了两种类型的特征，包括从ResNet-18/50中加载自监督预训练权重的特征。

如表8所示，从ResNet-18中获得的特征会导致略微较差的性能，而在使用自监督的ResNet-50特征时，它会带来性能提升。这个观察结果表明，虽然更高质量的特征表示有利于净化结果，但DMLP不是非常依赖于特征表示的能力。

验证集大小的影响。

我们研究了验证集数量如何影响性能。具体而言，我们在Clothing1M上评估了DMLP-Naive的10％到100％的整个验证集的验证大小。

如表7所示，DMLP-Naive无论验证大小如何，都可以实现类似的性能，证明DMLP对图像数量不敏感。值得注意的是，即使仅使用验证集的10％（约占训练数据的0.1％），DMLP-Naive仍然可以实现高精度，并且在表3中表现出色，表明DMLP的有效性不是严重依赖于验证大小。

在极端噪声情况下的性能。在所有训练集标签都不可靠（除了给定的干净验证集）的极度噪声场景中，LNL问题转化为部分标记半监督学习问题，因此我们在CIFAR-10和CIFAR-100上进一步比较了DMLP DivideMix 与一些最先进的半监督学习算法，包括MeanTeacher [29]，MixMatch [3]，FixMatch [26]和UDA [33]在100％对称噪声情况下的表现。

从表9的结果可以看出，当使用验证集作为训练的标记样本时，DMLP-DivideMix在所有方法中表现最佳，这表明提议的方法在广泛应用方面具有潜力。

结论

本文中，我们提出了一种灵活而新颖的多阶段鲁棒学习方法，称为DMLP。 DMLP的核心是一个经过精心设计的基于元学习的标签净化器，将复杂的双层优化问题分解为表示学习和标签分布学习，从而帮助元学习者以更快和更精确的方式纠正嘈杂的标签，即使在极度嘈杂的情况下也是如此。此外，DMLP可以应用于Naive重训练嘈杂的数据或辅助现有的LNL方法以提高性能。在几个合成和实际噪声数据集上进行的广泛实验验证了所提出方法的优越性。