Centrality and Consistency: Two-Stage Clean Samples Identification for Learning with Instance-Dependent Noisy Labels(集中度和一致性：针对特定样本噪声标签学习的两步清洗样本识别)

type

status

date

slug

summary

🤔 1 引言

深度学习在各种实际应用中具有转化性的威力，但也因其对数据的渴求而“声名狼藉”[10,11,29,9,21,45]。还有一些其他的替代方法试图减少数据注释的人力成本，例如爬取网络图像并使用机器生成的标签。但是，这些数据通常存在噪声，这会阻碍深度学习模型的泛化能力，因为过度拟合。

针对上述问题，学习有噪声标签（LNL）被提出作为一个新的主题，并在学术界和工业界受到了越来越多的关注。现有的LNL方法大多专注于使用类条件噪声（CCN）进行学习，其旨在恢复包含干净标签转换为噪声标签的类依赖概率的噪声转移矩阵。然而，CCN对于现实世界的LNL来说过于理想化，因为它忽略了噪声对于单个图像内容的依赖，即特定实例的噪声（IDN）。与随机噪音或CCN可以通过收集更多的（有噪声的）数据来对抗不同，IDN具有一些重要特征，使其难以应对。首先，分类器很容易过度拟合IDN，因为噪声标签依赖于样本特征。如图1示，误标记的IDN样本（具有相同的形状但不同颜色的样本）与其误标记类别共享相似的图像特征，因此往往分布在它们的真实类别和误分类类别之间的边界附近。因此，分类器很容易产生混淆并过度拟合IDN样本，从而导致虚假的决策边界（图中的红线）。此外，IDN的挑战在存在的类别不平衡和差异时可能会进一步被放大。考虑Clothing1M [38]，一个被[3]验证的IDN数据集，其中噪声高度不平衡和不对称。在Clothing1M中，IDN样本的分布是不均匀的，因为来自相似类（例如毛衣和针织品）的样本可能极为模糊，而来自其他类别（例如披肩和内衣）的样本易于区分。这种不均匀分布的IDN样本可能会受到类别不平衡问题的进一步放大，由于缺乏基准标签，因此无法保证有平衡的数据集。

图2：从[38]复制的Clothing1M过渡矩阵。嘈杂的标签分布非常不平衡。有些类几乎是干净的（例如披肩），而有些类的误标记样本比正确标签更多（例如毛衣）。

在本文中，我们遵循DivideMix [17]将LNL公式化为半监督学习问题，并提出了一种新的两阶段方法来识别存在IDN和类别不平衡问题的干净与嘈杂样本。在第一阶段，我们采用基于类别特征的聚类过程来识别易于区分的干净样本，方法是根据它们的余弦相似度与相应的类别预测中心。具体地，我们各自收集不同类别的样本的规范化特征，并计算它们位于单位球上的类别中心。然后，我们应用高斯混合模型（GMM）根据样本的余弦相似度将样本二元分类到相应的类别中心，并识别距离类别中心更近的样本作为干净样本。值得注意的是，我们提出通过基于预测熵聚合稀有类来增强GMM分类，从而缓解类别不平衡问题的影响。在第二阶段中，我们提出一种基于一致性的分类方法来识别掺杂IDN样本的困难干净样本，它们分布在与真实类别边界附近。我们的关键洞察是，这些干净样本可以通过两个分类器的预测一致性来识别。与IDN样本相比，干净样本应产生更一致的预测结果。具体而言，我们将两个正则化器嵌入训练中：一个应用于特征提取器，以鼓励它促进两个分类器的一致输出；一个应用于两个分类器，以强制它们生成不一致的预测。在训练后，我们使用另一个GMM将均值更小的GMM分类样本作为干净样本。在识别出所有干净样本后，我们将它们作为标记样本用于半监督训练，从而实现了我们的特定样本噪声标签学习。总之，我们的贡献可以总结为：

我们提出了一种深入研究特定样本噪声的方法，并设计了一个基于类别的特征聚类过程，重点关注不平衡的IDN样本的检测。

我们进一步提出了通过测量独立训练的两个分类器之间预测一致性来识别真实类别边界附近的难识别干净样本，从而进一步提高了干净与嘈杂分类的准确性。

我们的方法在某些具有挑战性的基准数据集中实现了最高水平的性能，并且在不同类别的合成IDN中被证明是有效的。

📝2 相关工作

许多以前的LNL方法集中在类条件噪声上。在类条件噪声假设下，一些方法尝试通过噪声转移矩阵[27]来更正损失函数，可以通过利用嘈杂的数据集[19,27,35,47]或使用清洁的数据集[12,44]来估计。基于噪声转移矩阵的这些损失更正方法对于实例相关噪声是不可行的，因为该矩阵是数据集相关的，参数数量随着训练数据集的大小成比例增长。一些方法通过重新加权嘈杂样本或选择清洁数据来矫正损失[33,15]。一种常见的解决方案是将损失较小的样本视为清洁数据[17,31,13]。然而，正如[3]所指出的，实例相关噪声更容易出现过拟合现象，而记忆效应（表示基于CNN的模型总是倾向于在过拟合到嘈杂标签之前学习一般简单模式）在用实例相关噪声训练模型时变得不太显著了。

一些其他方法使用其他技术对嘈杂标签进行抑制。例如，Kim等人[14]将正面学习与负面学习相结合，使用嘈杂数据的互补标签进行模型训练。一些方法[17,25]将LNL阐述为半监督学习问题。DivideMix[17]将数据集分为清洁和嘈杂集，用作半监督学习的标记和未标记数据。一些方法调查了增强策略[26]的影响或者强制要求在不同的数据增强中严格一致性[22]。C2D [43]利用自我监督学习来促进嘈杂标签的学习。

Chen等人[5]指出，对于对角线占优的类条件噪声，可以通过使用足够数量的嘈杂样本进行训练来始终获得近似最优的分类器。这也凸显了采用IDN学习的重要性。关于这个主题已有一些研究工作。CORES2 [5]尝试逐步筛选出损坏的样本并避免指定噪声率。CAL [46]提出了一种基于第二阶段辅助的第二阶段方法统计。此外，还有一些研究提出了IDN生成方法[3,36]。

🤗3 方法

3.1 概述

通过模型输出和标签对嘈杂和清洁样本进行分类是学习嘈杂标签（LNL）中普遍采用的选择。以前的研究使用嘈杂样本的交叉熵[17]或置信度阈值[40]进行嘈杂和清洁样本的区分。然而，正如Chen等人[3]所指出的，具有实例相关噪声（IDN）的样本更容易被神经网络过度拟合，导致不可靠的模型输出，混淆了清洁和嘈杂样本的分类。当数据集不平衡时，这种混淆会进一步放大。例如，对于对总体预测准确率贡献较小的罕见类别，可能会忽略清洁和嘈杂样本之间的差异。

因此，我们提出了一种两阶段方法，可以有效地解决类比IDN存在的情况下的类别不平衡问题。在第一阶段中，我们利用一个基于类别级特征的聚类过程来识别容易区分的干净样本，在特征空间中接近其相应类中心。具体而言，在此阶段中，我们通过聚合由其预测熵确定的罕见类别来解决类别不平衡问题。在第二阶段中，我们解决剩余的清洁样本，这些样本靠近真实类边界，因此与IDN样本混合。我们的关键洞察力是，这样的清洁样本可以通过两个分类器的一致预测来识别。具体而言，我们提出了一种迷你-最大策略来建立基于一致性的清洁和嘈杂分类：我们同时规范化这两个分类器来生成不一致的预测，但强制特征提取器使这两个分类器产生一致的预测。在训练之后，我们识别产生更一致预测的两个分类器之间的清洁样本。在识别所有清洁样本之后，我们遵循DivideMix [17]，将以IDN为特点的学习标签实现为将清洁样本作为标记样本，将剩余（嘈杂）样本作为未标记样本的半监督学习问题。

3.2基于特征的聚类

通常，我们将基于CNN的分类器分为两部分：特征提取器，它以图像作为输入并提取其特征，以及根据F提取的图像特征输出分类概率的分类器。给定一个嘈杂的数据集，其中是一个图像样本，是其（嘈杂的）标签。我们将以提取的的标准化特征表示为，即，将以表示的预测标签，并根据计算类别特征中心，如下所示：

其中代表类，是其嘈杂标签的样本xi的数量。然后，我们可以获得样本及其对应特征中心之间的余弦相似度，如下所示：

最后，我们对每个类别的样本相似度应用基于类别的高斯混合模型（GMM）进行二分类。由于噪声样本的余弦相似度往往较小，因此具有较大均值（即较大相似度）的GMM成分被视为干净集。因此，第一阶段的初步结果将所有噪声样本分类为干净或噪声。

基于罕见类别的基于熵的聚合 然而，当一些类别的大小很小且不足以进行二元分类时，所提出的基于特征的聚类的性能可能不稳定，这在具有大量类别的真实世界数据集中经常发生。为了解决这个问题，我们建议聚合那些无法完成二元分类的罕见类别。具体来说，我们设定一个类别聚合阈值，并计算每个类别样本的平均预测熵，如下所示：

其中是类别的样本数，表示干净和噪声样本的二元分类，表示样本属于类别的输出概率，即干净和噪声的概率。满足的类别的样本被聚合并视为单个类别，以便于我们的基于特征的聚类。

3.3 一致性分类

如图1所示，挑战性的干净样本通常靠近特征空间中的真实类别边界，并且可以通过两个独立训练的分类器和之间的一致性来确定它们具有不同的决策边界。因此，通过在我们的网络中用和替换分类器，我们可以得到同一样本的两个对应预测和。然后，我们定义并计算了和在上的一致性，如下所示：

其中简化表示，是类的数量，即和的维度。我们遵循[30]中的L1范数来测量偏差。

一致性最小化正则化 尽管经过独立训练，和共享相同的训练数据集和相同的损失函数，但它们对应的两个预测很可能相同或非常相似，这会导致非常大的风险。为了最小化此类风险，我们建议对G1和G2加入规则化损失，以最小化它们的一致性：

其中是样本数量，控制强度，

其中右侧忽略了以简化，是样本的嘈杂类别的频率。用于解决真实世界数据集中常见的类别不平衡问题。由于第一阶段的GMM模型不能保证洁净集中类别之间的平衡，明确增加了在稳定性最小化中具有更多样本的类别的权重，从而过滤掉更多样本。

一致性最大化正则化 仅使用最小化正则化可能会损害模型性能，因为还会最小化具有正确标签的样本的一致性，并且理想情况下，对于每个样本，两个分类器的输出应相同。因此，我们建议在特征提取器F上添加一致性最大化损失来约束网络：

其中控制强度。此外，的最大化迫使特征提取器分离模糊特征，从而补充了半监督训练。如图4的第三步所示，特征提取器通过将具有较小一致性的样本推向洁净标记数据来最大化一致性，而半监督学习则试图收集类似样本的特征。

3.4 训练过程

基于Sec.3.2和Sec.3.3的讨论，我们建议为每个时期重复以下四个步骤来训练模型。

初始化 在训练之前，我们遵循[17]，使用所有嘈杂标签对包括两个分类器的模型进行预热。步骤1和2属于我们的基于特征的聚类（第1阶段），步骤3和4属于我们的基于一致性的分类（第2阶段）。

步骤1：首先，我们提取噪声数据的特征并根据公式1计算每个类别的特征中心。然后，我们使用公式2计算样本的特征与噪声标签中心的余弦相似度。

步骤2：我们根据步骤1得到的余弦相似度，应用基于类的高斯混合模型（GMM）对样本进行二元分类（噪声与干净）。我们将均值较大的GMM组件标记为“干净”。然后，我们选择干净概率高于阈值的样本作为我们的主要干净集，其余样本作为噪声集。

步骤3：我们先固定特征提取器，并使用训练两个分类器，通过公式5最小化它们的一致性。然后，我们评估中所有样本的一致性。类似于步骤2，我们应用GMM模型对一致性进行处理，并选择均值较小的样本作为干净集。其余样本与合并得到。

步骤4：使用以上获得的和，我们通过在上使用监督式损失和在上使用半监督式损失进行模型优化。其中使用和作为标记集和未标记集，分别采用监督损失和半监督损失进行模型优化（公式8）。

此外，我们还通过公式7在训练过程中对特征提取器进行额外的一致性最大化正则化操作。