Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels

type

status

date

slug

summary

🤔 摘要

学习与嘈杂的标签相关的问题是机器学习中的一个重要和长期存在的问题。主要的研究方向之一是学习一个标签纠正器来净化潜在的嘈杂标签。然而，这些方法通常依赖于严格的假设，并且仅限于某些类型的标签噪声。本文从生成模型的角度重新构建标签噪声问题，即标签通过逐步细化初始随机猜测来生成。这个新的视角立即使现有的强大扩散模型能够无缝地学习随机生成过程。一旦生成的不确定性被建模，我们就可以使用最大似然估计标签来进行分类推断。

📝1 引言

深度神经网络在各种分类任务上取得了极高的准确率。这些模型通常通过使用大量已标注数据进行监督学习来训练。然而，大规模数据标注可能需要大量时间和精力，而且容易出现由人为错误或自动标注算法引起的错误[1]。此外，研究表明，深度神经网络模型适应随机标签的能力会导致在学习时使用有损标签时降低泛化能力[2]。因此，在将深度学习模型应用于对有噪声但不完美的数据集进行监督学习任务时，使用噪声标签的鲁棒学习方法是至关重要的。

过去的研究调查了多种标签噪声类型。最近的研究着重研究了更为现实的特征相关标签噪声，其中误标注给定实例的概率取决于其特征。这种噪声类型更符合实际数据集中的标签噪声特征[3, 4, 1, 5, 6, 7]。为了解决这种噪声，一个模型应该能够估计每个训练标签的不确定性。许多最先进的方法主要依靠观察到深度神经网络往往在记忆随机噪声之前学习简单模式[8, 9]。这意味着在学习过程中存在一个临时阶段，模型已经学习了有用的特征，但尚未开始过度拟合有损标签。在这个阶段，模型的预测可以用于修改训练标签，使其与模型预测更一致[10, 11, 12, 13, 14, 15]。通过正确修改标签，干净训练样本的数量增加，这可以进一步有益于训练。然而，这种方法本质上是有风险的，因为模型开始过拟合的时间因网络结构和数据集而异。开始得太早会破坏训练数据，而开始得太晚可能无法防止过拟合[16]。因此，仔细调整训练策略的超参数（例如用于热身训练的时期数量、学习率和不确定性阈值），以达到成功的训练结果是至关重要的。

另一类方法采用半监督学习中标签传播的假设[17, 18]，其中特征空间中附近的数据点往往具有相同的标签。因此，他们使用邻居一致性正则化来防止模型的过拟合[19, 20]。性能极大地依赖于将数据映射到特征空间的编码器的质量，因为检索属于不同类别的邻居可能会进一步误导训练过程。因此，编码器需要先学习可用于分类的数据的高级特征，这可以与使用有噪声标签的分类器同时训练。然而，这种训练也可能导致过拟合或欠拟合。与之相比，本文从生成模型的角度来阐述标签噪声问题，这自然提供了应对问题的新思路。我们的直觉是将噪声标注过程视为随机标签生成过程。因此，我们建议采用强大的扩散模型作为生成性组件Figure 1。生成过程从噪声估计标签开始，然后逐渐细化以恢复干净标签，这等价于扩散模型的反降噪过程。

具体而言，扩散模型将噪声标签和一些有用的条件信息（将在后文中详细说明）作为输入，并学习将真实标签恢复/生成为输出。这种设置中的一个挑战是在实践中仅有噪声标签可用于训练。为了克服这个问题，我们采用邻居一致性原则，提出标签检索增强来构建扩散模型训练的伪干净标签，其中使用预先训练的图像编码器来定义样本的邻域。值得注意的是，预先训练的图像编码器不会受到标签噪声的影响，因为它们可以通过自我监督的方式[21, 22]或在额外的干净数据集[23, 24]上进行训练。事实上，预训练可以极大地提高模型的对抗鲁棒性[25]，并已用于提高标签污染下的模型鲁棒性[26]。我们设计的另一个优点是它足够通用，以允许自然地将功能强大的大型预先训练模型，如CLIP模型等，纳入进来进一步提高性能。此外，扩散模型的概率性质也更适合处理数据和标签中的不确定性，从而提供更强大和准确的预测。我们称我们的模型为LRA-diffusion（标签检索增强扩散）。

我们的主要贡献如下：

我们将学习噪声标签的方法，形式化为条件标签生成的随机过程模型，并建议采用强大的扩散模型学习条件标签分布。

我们将邻居一致性原则纳入模型设计，并设计了一种新型的标签检索增强扩散模型，以有效地从带有噪声标签的数据中学习。

我们通过将来自大规模预先训练模型（例如CLIP）的辅助条件信息纳入模型设计，进一步提高了我们的模型性能。

我们的模型在各种现实世界的噪声标签基准测试中均取得了最新的最佳性能(SOTA)，例如，在有噪声的CIFAR-100基准测试上，我们提高了20%的准确率。

🤗2 预备知识

扩散模型最初被设计用于生成建模，最近，扩散模型还被拓展用于分类和回归问题。在本节中，我们介绍一个基于 CARD 模型的模型，即分类和回归扩散模型（CARD）[27]。

该 CARD 模型将确定性分类转化为条件标签生成过程，从而允许在标记过程中进行更灵活的不确定性建模[27]。与标准扩散模型类似，CARD 包括前向过程和反向过程。在前向过程中，一个维的 one-hot 标签逐渐被损坏成一系列中间的随机向量，经过步之后，收敛到一个多元高斯分布（潜在分布）的随机变量，其中均值由预先训练的 n 维图像编码器定义。相邻中间预测之间的转换步骤被建模为高斯分布，，其中的均值和方差计划，其中。这允许一个封闭式采样分布，，其中任意时间步长和。平均项可以被视为真实数据和潜在分布的平均值之间的插值，其中的加权项

在反向（生成）过程中，CARD 通过在任意维度上近似恢复条件上的数据点和另一个预先训练的图像编码器的去噪转换步骤，从一个维高斯噪声中重建标签向量。对于一个无穷小的方差，过渡步骤也是高斯的[28]（定义）:

扩散模型通过随机梯度下降优化证据下界来学习：

其中:

根据[29]，目标函数可以简化为算法 1。

3 标签检索增强的扩散模型

受 CARD 模型的启发，标签检索增强 (LRA) 扩散模型将从嘈杂的标签中学习视为一种条件标签生成过程（即标签扩散）的随机过程。在本节中，我们首先提供了我们模型的概述（3.1 节），然后在 3.2 节介绍了所提出的标签检索增强组件，该组件可以利用训练数据中的标签一致性。接下来，在 3.3 节中，我们介绍了一种加速的标签扩散过程，以大幅减少分类模型的推断时间。最后，在 3.4 节中提出了一种新的条件机制，以支持预训练模型的使用。

3.1 模型概述

我们的整体标签检索增强扩散模型如图 2 所示，采用扩散模型逐渐对标签进行去噪，借助预先训练模型的检索和辅助信息。我们的模型使用两个预先训练的网络，称为编码器和编码器，以编码有助于生成过程的条件信息。编码器作为的均值估计器，为给定图像提供一个初始标签猜测。这个编码器可能是针对嘈杂标签训练的标准分类器。另一方面，编码器作为高维特征提取器，有助于指导反向过程。和被连接在一起后进行处理。我们的神经网络架构设计的详细信息提供在补充材料 C 中。

在训练过程中，我们使用从邻域检索到的标签作为生成目标。然后，在前向过程中，邻近标签的分布逐渐朝向以预估均值为中心的标准高斯分布进行损坏。在测试时，我们采用广义DDIM方法来高效地计算的最大似然估计。

图 2: 从嘈杂标签中改善学习性能的提出框架的概述。图 2 描述了包括以下三个主要组件：(1)使用扩散模型模拟和反转标签噪音过程;(2) 在扩散模型中使用预训练编码器（即和），以及 (3) 使用编码器的标签检索增强方法，以鼓励相邻图像标签的一致性。

3.2 标签检索增强训练

标签噪声的存在使得训练过程中的干净标签不可用。为了缓解这个问题，我们提出了一种基于检索增强学习概念[30, 31]的训练策略，使其对标签噪声更加鲁棒。我们的主要假设是，在一个潜在的空间里，不同类别的数据点会形成独特的聚类。因此，预计大多数数据点的邻居都具有与该点本身相同的标签。为此，我们使用预训练编码器，如图2中的fp所示，将数据映射到嵌入空间，并检索训练集中k个最近邻居的标签。然后，扩散模型被训练来学习邻域内标签的条件分布，而不是数据点本身的标签分布。

标签检索增强使模型可以利用来自多个且可能更精确的标签的信息，以提高其预测性能。算法1描述了训练过程。此外，扩散模型被认为对建模多模态分布很有效。通过训练模型以从基于同一数据点的邻居生成不同的标签，模型可以根据分布产生随机预测来捕捉数据标记过程中固有的不确定性。因此，训练好的模型不仅可以用作分类器，还可以用作模拟实际标记过程的采样器。

3.3 使用广义DDIM进行高效推理

分类扩散模型的迭代生成性质使得其推理效率无法与传统分类器相比。为了提高推理效率，我们建议将有效的采样方法Denoising Diffusion Implicit Model (DDIM) [32]纳入其中，以加速标签扩散过程。然而，mean estimator 的使用使得DDIM与我们的设置不兼容，因为我们的生成过程始于非零平均值的高斯分布。因此，我们将DDIM方法调整为更通用的形式，以适应我们的框架。类似于DDIM，我们的采样过程维持与原始闭合形式采样过程相同的边缘分布。详细导出过程可以在附录A中找到。

通过DDIM，训练好的模型可以遵循预定义的采样轨迹以更少的步骤生成标签向量，其中.因此，yt可以计算为：

其中。我们可以预测去噪标签，即在给定的情况下对的预测：

当时，我们可以通过定义的非马尔可夫前向过程从计算：

由于标签向量的维数通常远小于图像的维数，模型可以在不影响生成质量的情况下在反向过程中使用更少的步骤。在我们的实验中，我们使用，，大大减少了分类过程的时间成本。附录B提供了CIFAR-10数据集上标签生成（分类）过程的示例。为了进一步提高推理效率，我们提出了一种简单有效的技巧，用于计算标签的最大似然估计。由于生成过程在给定时是确定性的，yT又是从单模高斯分布中采样得到的，我们通过从均值开始进行初始化来近似标签的最大似然估计，即。这个技巧规避了需要进行重复生成的耗时多数投票近似。

3.4 利用预先训练的编码器进行灵活的条件建模

CARD模型最初采用单个模型作为和编码器。然而，这会限制它们的表征能力[33]，因为的维数通常相对较小，即等于类别数。为了减轻这一问题并提高模型性能，我们放弃了的假设，使其支持使用任意维度的，可以利用更强大的预训练编码器（例如CLIP图像编码器[24]）。

实证上，我们发现即使的幅值很小，模型仍然可以在实践中达到令人满意的性能，这意味着隐含表征主要由噪音项掌控。在这种情况下，对扩散过程提供的信息是有限的。因此，我们简单地设置，以避免处理额外的n维编码器。对于编码器，可以采用灵活的预训练模型，如第5节所述。在本文中，我们使用SimCLR模型对训练图像（没有监督信息）进行训练和预先训练CLIP模型。

4 相关工作

鲁棒的损失函数和正则化技术

已经提出了几种噪声鲁棒损失函数和正则化技术作为常用的交叉熵损失（CE）的替代方案，该损失对标签噪声不具有鲁棒性。平均绝对误差（MAE）[34]损失已被证明对嘈杂的标签具有鲁棒性。广义交叉熵（GCE）[35]将CE和MAE结合起来，以实现更快的收敛速度和更高的准确性。对称交叉熵学习（SL）[36]将CE与噪声鲁棒性部分相结合，发现对于高噪声率尤其高的GCE性能更高。标签平滑正则化[37]通过将标签与均匀分布线性组合来缓解过拟合。自举技术[38]将标签与当前模型预测相结合。动态引导[39,40]使用预测置信度来控制组合中的加权。相邻一致性正则化（NCR）[19]基于学习的相似性鼓励预测的一致性。我们的方法也基于 neighbor consistency 的原则。然而，我们的模型直接学习相关实例的标签，而不是鼓励邻居之间一致的预测。这允许通过学习邻居之间的标签分布来估计实例级别的不确定性，而不是学习点估计。数据重新校准。

数据重新校准技术

逐步删除或更正训练期间的错误标记数据，以提高训练数据的可靠性。Wang等人。[11]利用了所学的相似性和标签一致性来识别和丢弃带有噪声标签的数据。TopoFilter [41]通过在学习到的特征空间中分析训练数据的拓扑结构来选择清洁数据。程等人。[4]定义了一个贝叶斯最优分类器来更正标签。郑等人。[14]提出使用似然比检验（LRT）基于预测来纠正训练标签。张等人。[15]使用LRT逐步更正标签，并为收敛到贝叶斯最优分类器提供了理论证明。Dividemix [42]、LongReMix [43]和CC [44]将低置信度数据视为未标记，并使用半监督学习算法[45]进行进一步分析。C2D [46]将Dividemix与自监督预训练相结合，通过提高提取特征的质量来提高其性能。我们的方法采用了与TopoFilter相同的假设，即属于同一类别的数据应该以理想的特征表示聚类在一起。然而，我们的技术不仅限于由标签噪声扭曲的学习特征。相反，类似于C2D，我们的方法可以有效地利用预先训练的编码器学习高质量的特征来实现优越的准确性。

引导扩散模型和检索增强

引导扩散是一种应用于条件生成的扩散模型的技术。分类器引导 [47]是一种经济有效的方法，利用分类器的梯度来引导已训练扩散模型的生成过程。另一方面，无分类器引导 [48]学习训练期间的条件分布，以提高生成质量。该方法还允许使用连续的指导信息，例如嵌入向量，而不仅限于离散标签。分类与回归扩散模型(CARD) [27]将分类和回归形式化为在图像条件下生成标签或目标变量的条件生成任务。我们的方法遵循相同的范例，并利用了扩散模型的多模态覆盖能力来学习邻域内的标签分布。检索增强的扩散模型 [30]使用从外部数据库中检索到的邻居作为条件信息来训练图像合成的扩散模型。检索增强分类[31]使用检索-增强方法通过使用类不平衡的训练数据来训练分类模型。我们的方法与他们的方法不同，通过检索标签而非数据来减少训练中的标签噪声，而不是增加训练数据。此外，我们的模型不需要外部数据库。

5 实验

我们首先评估我们的方法在各种类型的合成噪声数据集上的性能。然后，我们在四个真实数据集上进行实验。为了更好地理解性能增益来源，我们进行消融研究，以测量条件扩散和不同的伪标签构建策略的影响。所有实验都在四个NVIDIA Titan V GPU上完成。详细的实现细节和超参数见附录C。

5.1 合成有噪声数据集的结果

我们在CIFAR-10和CIFAR-100数据集上进行模拟实验以评估我们的方法在不同噪声类型下的性能。具体来说，我们采用多项式间隔衰减（PMD）噪声，一种新颖的实例相关噪声，测试两个噪声水平和三种混合噪声类型，通过在实例相关噪声之上添加独立同分布的噪声进行测试。对于实例相关噪声，我们采用最近提出的多项式间隔衰减（PMD）噪声。按照原始论文，我们使用清晰标签对分类器进行训练，以近似后验分布的概率质量函数。根据的预测，将图像最初标记为其最可能的类别。然后，我们以概率将每个图像的标签随机更改为第二个最可能的类别，其中是控制噪声标签最终百分比的常量噪声系数。由于将标签损坏到第二个最可能的类别可能最容易使“干净”分类器混淆，因此预计对使用有噪声标签学习的模型的性能产生最严重的负面影响。对于PMD噪声，我们模拟了35％和70％标签被破坏的两个噪声水平。

对于独立同分布的噪声，我们按照[51,15]使用一个转移概率矩阵生成噪声标签。具体地，我们使用概率使第i类的标签被误分类为第类。我们在本研究中采用了两种类型的独立同分布噪声：（1）均匀噪声，其中样本被不正确地标记为其他类之一，其概率是是预定义的噪声水平；（2）不对称噪声：我们精心设计了转移概率矩阵，使得对于每个类别，标签只能以概率或者维持原来的标签，被错误地标记为一种特定的类别。在我们的实验中，我们将35％的PMD噪声上面添加了30％，60％均匀和30％的不对称噪声来生成三种混合噪声。

我们使用两个预训练的编码器测试我们提出的标签检索增强扩散模型：（1）SimCLR [21]：我们使用对比学习在CIFAR-10和CIFAR-100数据集上训练了两个使用ResNet50 [52]架构的编码器；(2）CLIP [24]：该模型在包含400万个图像-文本对的大型数据集上进行了预训练。具体来说，我们使用预训练权重的视觉变换器[VIT-L /14]编码器，这是CLIP中表现最好的架构。为简单起见，我们将这些配置称为SimCLR LRA-diffusion和CLIP LRA-diffusion。我们还研究了在由SimCLR和CLIP编码器定义的特征空间内执行KNN算法的性能，分别称为SimCLR KNN和CLIP KNN。

表1列出了在PMD噪声和混合噪声(将PMD噪声与均匀(U)和不对称(A)噪声相结合)下CIFAR-10和 CIFAR-100数据集上的标准方法（使用有噪声标签训练分类器），我们的方法以及使用有噪声标签学习的基线方法的性能。白色行的结果直接从[15]中借用。我们可以看到，在不需要额外的训练数据的情况下，使用SimCLR编码器的LRA-diffusion方法在CIFAR-10和CIFAR-100数据集上的测试准确性要优于其他基线方法。这是因为SimCLR编码器是以无监督的方式进行训练的，使其对标签噪声免疫，并且可以有效地提取分类特征以进行准确的图像检索。因此，当正确的标签在邻域的标签分布中占主导地位时，使用检索到的邻居图像的标签进行训练，可以使模型学习到更多正确的标签。

值得注意的是，将CLIP编码器合并到我们的方法中可以显着提高测试准确性，超过了SimCLR LRA-diffusion的表现，这是由于CLIP具有出色的表示能力。事实上，仅在CLIP特征空间中执行KNN就能够在大多数实验中实现超过所有竞争方法的准确度。这允许在训练过程中使用更多的干净标签，从而产生更高的准确度。

5.2 消融实验

为了评估扩散模型和预训练编码器的贡献，我们使用CARD [27]和线性探测来进行消融实验，从有噪声标签和采用检索增强标签中进行学习。结果总结在表2中。我们的模型明显优于CARD，这主要是由于fp编码器提供更详细的信息。此外，我们在CIFAR-10上使用SimCLR进行的实验表明，直接将LRA与线性探测相结合可能会导致准确率低于在有噪声标签上使用线性探测。另一方面，由于扩散模型具有模式覆盖能力，因此我们的模型可以从检索增强标签中有效地学习。总之，我们的LRA-diffusion模型为将预训练的编码器纳入从有噪声标签中学习的过程中提供了一种高效的方法。附录D中的其他消融研究表明，即使在没有预训练编码器的情况下，我们的模型也可以利用有噪声分类器的特征并提高其准确性。

5.3在真实世界的嘈杂数据集上进行的结果

我们进一步在真实世界的标签噪音上评估我们提出的方法的性能。遵循之前的工作[42, 15, 44, 43]，我们对四个图像数据集进行了实验，即WebVision [54]、ImageNet ILSVRC12 [55]、Food-101N [56]和Clothing1M [57]。对于Webvision、ILSVRC12和Food-101N数据集的实验，我们使用CLIP图像编码器作为fp编码器来训练LRA扩散模型。详细的数据集描述和实现细节可以在补充材料C中找到。我们将我们的方法的性能与一组最先进的方法进行了评估，并在表3和表4中给出了结果。我们的方法在分类准确度方面显著优于所有先前的方法。

在Clothing1M数据集上的实验中，我们发现LRA-diffusion在基于CLIP图像编码器的条件下没有达到SOTA的准确度。这可能的一个解释是，CLIP特征对于这个特定领域的时尚风格分类任务来说太过普遍了。然而，我们的方法正交于大多数传统的带有噪声标签的学习方法。如补充材料D中显示的额外消融研究所示，我们的方法可以通过在分类器训练过程中结合其特征编码器来实现改进的性能。我们首先使用CC [44]方法选择清洁样本并训练ResNet50分类器，其精度达到了75.32%（称为）。然后，在对所选样本进行分类之前，我们在其特征之上进行条件化，以训练我们的LRA-diffusion模型，其精度达到了75.70%。正如表5所示，我们的方法基于实现了0.38%的提升，并击败了所有SOTA方法。

5.4 推理效率分析

为了测试我们的模型的效率，我们在CIFAR-10数据集上进行了运行时间评估，并将我们的方法与使用ResNet50的标准分类器进行了比较。值得注意的是，我们的SimCLR编码器也是建立在ResNet50上的。因此，标准方法的运行时间还反映了在SimCLR上进行线性探查的运行时间。表6显示了结果。我们可以看到，计算瓶颈在于大型预训练编码器而不是扩散模型本身。一般来说，当使用SimCLR（ResNet50）和CLIP（ViT-B / 32）预训练编码器时，我们的方法需要的时间是标准分类器（ResNet50）的两倍。较大的CLIP编码器可以进一步增加时间。然而，如果可以预先计算特征或并行计算（因为它们只需要计算一次，并且以后可以重复使用），则可以进一步加速它。

6 结论

本文通过将嘈杂标记过程视为一种条件生成过程，利用扩散模型去除标记噪音并准确捕捉标记不确定性。提出了一种基于标签检索增强的扩散模型，通过结合邻居一致性的原则，有效地从嘈杂标记数据中学习。此外，通过结合来自大型预训练模型（如CLIP）的辅助条件信息，我们能够显著提升模型性能。所提出的模型在几个基准数据集上进行了测试，包括CIFAR-10、CIFAR-100、Food-101N和Clothing1M，在大多数实验中都取得了最先进的结果。未来的工作还包括通过利用现有技术来改进扩散模型，进一步推动性能。