Understanding Deep Learning on Controlled Noisy Labels

type

status

date

slug

summary

🤔 一个简单的开头

深度神经网络的成功取决于高质量的标记训练数据的获取，因为训练数据中存在标记错误（标记噪声）会大大降低模型在干净测试数据上的准确性。不幸的是，大型训练数据集几乎总是包含有不准确或不正确标签的样本。这导致了一个悖论：一方面，大型数据集是训练更好的深度网络所必需的，而另一方面，深度网络往往会记忆训练标签噪声，在实践中导致模型性能变差。

研究界意识到了这个问题的重要性，引入了一些工作来尝试理解嘈杂的训练标签，例如由Arpit等人提出的方法，以及缓解策略，例如MentorNet或共同教学，以克服这些问题。通过研究噪声级别（数据集中标签不正确示例的百分比）对模型性能的影响，控制实验在理解嘈杂标签方面发挥着关键作用。然而，当前的实验仅在合成标签上进行，其中噪声样本具有随机分配的标签，而不是真实世界的标签噪声，其遵循不同的噪声分布。这样的研究可能会导致与实际经验相比关于嘈杂标签的非常不同甚至矛盾的发现。此外，对于合成噪声效果良好的方法，在实际嘈杂标签中的效果可能并不理想。

在2020年ICML上发表的“Beyond Synthetic Noise: Deep Learning on Controlled Noisy Labels”,一文中，我们做出了三个贡献，以更好地理解非合成嘈杂标签上的深度学习。首先，我们建立了来自Web的具有现实性、真实世界标签噪声的第一个控制数据集和基准。其次，我们提出了一种简单但非常有效的方法，以克服合成和现实世界的嘈杂标签。最后，在各种设置下，我们进行了迄今为止最大的比较合成和Web标签噪声的研究。

📝Properties of Synthetic vs Real-World (Web) Label Noise

合成和现实世界（Web）标签噪声的图像分布有一些差异。首先，带有Web标签噪声的图像倾向于与真正的正样本图像在视觉或语义上更加一致。其次，合成标签噪声在类别级别上（同一类别中的所有示例都具有相同的噪声），而现实世界的标签噪声在实例级别上（某些图像更容易被错误标记，无论关联类别如何）。例如，如果从侧面拍摄图像，“本田思域”和“本田雅阁”的图像更容易混淆。第三，带有现实世界标签噪声的图像来自一个开放的类词汇表，可能与特定数据集的类词汇表没有重叠。例如，“瓢虫”的Web噪声图像包括“苍蝇”和其他未包含在所使用数据集的类列表中的虫类。控制标签噪声的基准将有助于更好地定量了解合成和现实世界Web标签噪声之间的差异。

🤗Benchmark for Controlled Label Noise from the Web

这项工作的基准是建立在两个公共数据集上：用于粗粒度图像分类的Mini-ImageNet和用于细粒度图像分类的Stanford Cars。我们逐步用从网络上收集的错误标记的图像替换这些数据集中的清洁图像，遵循构建合成数据集的标准方法。

为此，我们使用类别名称（例如“瓢虫”）作为关键词从网络上收集图像，这是一种自动方法，可从网络上收集带有噪声标记的图像而无需手动注释。然后，使用Google Cloud标注服务，对每个检索到的图像进行了3-5个注释者的检查，确定其是否正确标记，得到近213k个注释图像。我们使用这些带有错误标签的网络图像来替换原始Mini-ImageNet和Stanford Cars数据集中清洁的训练图像的一部分。我们创建了10个不同的数据集，每个数据集的标签噪声逐渐升高（从0%的清洁数据到80%的带有错误标签的数据）。这些数据集已在我们的“控制噪声网络标签”网站上开源。

合成标签噪声和网络标签噪声的比较。从左到右，列分别是 Mini-ImageNet 或 Stanford Cars数据集中的真阳性图像，带有错误合成标签的图像和带有错误网络标签（在本次工作中收集）的图像。

MentorMix: A Simple Robust Learning Method

针对某个未知噪声级别的数据集，我们的目标是训练一个强健的模型，在干净的测试数据上能够很好地泛化。我们引入了一种简单而有效的方法来处理合成的和真实的噪声标签，称为 MentorMix，并在“控制噪声网络标签”数据集上进行了开发。

MentorMix 是一种基于两种现有技术 MentorNet 和 Mixup 的迭代方法，包括四个步骤：权重计算、样本选择、Mixup 操作和再次计算权重。在第一步中，MentorNet 网络计算出每个小批量中每个示例的权重，可以根据手头的任务进行定制，并将权重归一化到一个分布中。在实际应用中，我们的目标是为正确标记的示例分配高权重，为错误标记的示例分配零权重。由于我们不知道哪些是正确的哪些是错误的，所以 MentorNet 权重基于近似值计算。在这个例子中，MentorNet 使用 StudentNet 训练损失来确定分布中的权重。

接下来，针对每个示例，我们使用重要性采样来选择同一小批量中的另一个示例，根据权重分布进行选择。由于具有更高权重的示例倾向于具有正确的标签，因此在采样过程中优先选择它们。然后，我们使用 Mixup 来混合原始示例和采样示例，以便模型在两者之间进行插值，避免过度拟合嘈杂的训练示例。最后，我们可以计算混合示例的另一个权重来缩放最终损失。第二个加权策略对高噪声级别的影响更加明显。

从概念上讲，上述步骤实现了一个新的强健损失函数，结果更能够适应嘈杂的训练标签。有关这个话题的更多讨论可以在我们的论文中找到。下面的动画演示了 MentorMix 中的四个关键步骤，其中 StudentNet 是一个要用于嘈杂标签数据上训练的模型。我们采用了 Jiang 等人描述的非常简单的 MentorNet 版本，来为每个示例计算权重。

*Illustration of four steps in the MentorMix method: weight, sample, mixup, and weight again.*

评估

我们在五个数据集上评估了 MentorMix，其中包括带有合成标签噪声的 CIFAR 10/100 数据集以及拥有 220 万张带有真实世界噪声标签的大型数据集 WebVision 1.0。MentorMix 在 CIFAR 10/100 数据集上始终产生了改进的结果，并在 WebVision 数据集上取得了最佳的已发布结果，相对于 ImageNet ILSVRC12 验证集中的 top-1 分类准确性，较之前最佳方法显著提高了约 3%。

Our model is trained only on the WebVision 2.2 million noisy training sample and is tested on the ImageNet ILSVRC12 validation set. The baseline models reported are (Lee et al. 2018), (MentorNet 2018), and (Guo et al. 2018). — *Our model is trained only on the WebVision 2.2 million noisy training sample and is tested on the ImageNet ILSVRC12 validation set. The baseline models reported are (***Lee et al. 2018***), (***MentorNet 2018***), and (***Guo et al. 2018**).

来自网络上的噪声标签的新发现

本研究代表目前为止对了解训练于嘈杂标签上的深度神经网络的规模最大的研究。我们对网络标签噪声提出了三个新发现：

深度神经网络在网络标签噪声上的泛化效果要好得多

尽管深度神经网络在合成标签噪声上的泛化能力较差是众所周知的，但我们的结果表明，深度神经网络在网络标签噪声上的泛化效果要好得多。例如，使用60%的网络标签噪声级别对 Stanford Cars 数据集进行训练的网络的分类准确率为0.66，远高于在相同60%级别的合成噪声下训练相同网络的分类准确率仅为0.09。这种模式在我们的两个数据集中使用微调和从头开始训练时保持一致。

深度神经网络在训练网络标签噪声时可能不会首先学习模式

我们通常理解为深度神经网络首先学习模式——一种有趣的特性，在早期训练阶段，DNN能够自动捕获可推广的“模式”，然后再记忆嘈杂的训练标签。因此，通常在嘈杂数据上进行训练时会使用早期停止。然而，我们的结果表明，在使用具有网络标签噪声的数据集进行训练时，至少对于细粒度分类任务，深度神经网络可能不会首先学习模式，这表明早期停止对于来自网络的真实标签噪声可能不是有效的。

当网络进行微调时，ImageNet 架构对嘈杂训练标签具有普适性

Kornblith 等人（2019）发现，对 ImageNet 上训练的更先进的架构进行微调，往往在下游任务上表现更好。我们的结果将此发现扩展到嘈杂训练数据，显示一个预先训练的表现更好且在 ImageNet 上的表现更好的架构可能即使在嘈杂训练标签上微调时也会表现更好。

总结

根据我们的发现，我们在嘈杂数据上训练深度神经网络的实用建议如下：

处理噪声标签的简单方法是微调在干净数据集上预先训练好的模型，如ImageNet。预先训练的模型越好，它在下游嘈杂的训练任务上的泛化能力就会越好。

早期停止可能对来自网络的现实标签噪声不是有效的。

在嘈杂的网络标签噪声上表现良好的方法可能在来自网络的现实噪声标签上效果不佳。

来自网络的标签噪声似乎对我们当前的强健学习方法来说更不具有危害性，但更难应对。这推动了更多未来的研究应围绕受控制的现实世界标签噪声展开。

所提出的 MentorMix 可以更好地应对合成和来自现实世界的噪声标签。 MentorMix 的代码可在 GitHub 上获得，数据集可在我们的数据集网站上获得。

🤔 一个简单的开头

📝Properties of Synthetic vs Real-World (Web) Label Noise

🤗Benchmark for Controlled Label Noise from the Web

MentorMix: A Simple Robust Learning Method

评估

来自网络上的噪声标签的新发现

总结

🗒️Beyond Synthetic Noise: Deep Learning on Controlled Noisy Labels

🗒️Large-Scale Pre-training for Person Re-identification with Noisy Labels