发布于: 2023-11-3最后更新: 2024-8-18字数 00 分钟

type
status
date
slug
summary
tags
category
icon
password
文章来源说明

🤔 摘要

伪标签是由在标记的源数据上训练的分类器对未标记的目标数据进行的自信预测。它们被广泛用于适应模型到未标记的数据,例如,在半监督学习环境中。我们的关键见解是,由于内在的数据相似性,伪标签自然上是不平衡的,即使模型是在平衡的源数据上训练并在平衡的目标数据上进行评估。如果我们解决由伪标签引起的此前未知的不平衡分类问题,而不是基于真实训练标签,我们可以消除由伪标签创建的模型对错误多数的偏见。我们提出了一种基于反事实推理和自适应边界的新颖有效的具有伪标签的修正学习方法:前者消除了分类器响应的偏差,而后者根据伪标签的不平衡调整每个类别的边界。通过广泛的实验验证,我们的简单修正学习方法在ImageNet-1K数据集上实现了显著的准确度提升:在只有0.2%注释的半监督学习中提高了26%,在零样本学习中提高了9%。

📝介绍

现实世界的观察结果以及非策划的数据集自然地呈现长尾分布[19,61]。不平衡分类[10,25,64]解决这种数据偏差问题,以防止模型被主类实例所主导。开发能够对抗偏见的视觉识别系统还具有重要的社会影响[37]。
尽管现有方法专注于从由人类标注员收集的不平衡的地面实况标签中消除偏差,但我们发现机器学习模型生成的伪标签自然上也是不平衡的,这为广泛的偏向性学习增添了另一个来源!伪标签是一个现有模型(教师模型)对未标记数据进行的高置信度预测,然后成为训练数据的一部分,用于对未标记数据进行模型适应(学生模型)(图1a)。当学生模型是教师模型本身时,这个学习过程也被称为自训练[4, 5,30,57,70]。伪标签通常被广泛应用于半监督学习(SSL)[33,57],领域自适应[26,40]和迁移学习[1]。
notion image
 
我们在两个常见任务中研究了伪标签的分布。1)在不同的零样本迁移学习(ZSL)中,源域和目标域不同,一个预训练的CLIP模型[49]在策划且平衡的ImageNet-1K数据集上产生了高度不平衡的预测,尽管CLIP的训练集大致平衡(图1c)。有超过3500个实例被预测为类别0,是类别0的实际样本数的3倍。2)在半监督学习中,源域和目标域相同,FixMatch[57]在标记的CIFAR10图像上训练,在未标记的图像上生成高偏见的伪标签,尽管标记集和未标记集都是平衡的(图1b)。
也就是说,由机器创建的伪标签自然上也是不平衡的,就像由人类创建的地面实况标签一样。如果我们解决由伪标签引起的以往未知的不平衡分类问题而不是基于地面实况训练标签,我们可以根据伪标签改进模型学习,并消除伪标签创建的对错误多数的模型偏见。
我们提出了一种新颖而有效的伪标签去偏学习方法,不需要任何关于实际分类边界分布的知识,而这些知识对去偏学习基于地面实况标签[23,34,62]是可得的。该方法由自适应去偏模块和自适应边界损失组成。前者通过反事实推理动态消除分类器的响应偏差,后者根据伪标签的不平衡动态调整每个类别的边界。
通过大量实验证实,我们简单的去偏学习不仅在ImageNet-1K上提高了半监督学习(使其精度提高了26%,注释比例为0.2%)和零样本学习(使其精度提高了9%),而且对于更强健的领域转移,它也是各种伪标签方法的通用附加组件。当未标记的原始数据自然上是不平衡的,并且模型倾向于将尾部类样本错误标记为头部类时,伪标签不平衡问题变得更加严重。应用去偏学习后,我们在长尾设置下大幅提高了半监督学习性能。
我们的工作有四个重要贡献。
1)我们系统地调查并发现伪标签自然上是不平衡的,并导致有偏学习。
2)我们提出了一种简单的使用伪标签实例的去偏学习方法,无需知道其实际分类边界的分布。3)我们显著改进了零样本/半监督学习的最新成果,并且证明我们的去偏学习方法是各种伪标签模型的通用附加组件。
4)我们建立了一种有效的适用于视觉和语言预训练模型(如CLIP)的新的零样本/半监督学习流程。
 

🤗 Pseudo-Labels are Naturally Imbalanced

与以往更关注训练于不平衡数据导致的偏差不同,我们的重点在于伪标签偏差,即使在平衡数据上进行训练也会存在这种偏差。在本节中,我们对FixMatch [57]在SSL和CLIP [49]在ZSL上的巨大成功背后隐藏的这个未知问题进行了分析,这两种方法都需要使用“伪标签”来将源数据中学到的知识转移到目标数据中。 我们首先描述了伪标签方法的背景,然后分析了它们的偏差问题。我们将偏差的原因归因于类与类之间的相关性问题。

背景

FixMatch用于半监督学习。FixMatch的核心技术是伪标签。它选择具有高置信度的无标签样本作为训练目标。假设我们有一个带有L个标记实例的已标记数据集,和一个具有U个实例的无标签数据集。其中,是输入实例,是离散注释目标,具有C个类别。共享相同的语义标签。优化目标由两部分组成:,即应用于标记数据的监督损失LS和应用于无标签数据的非监督损失,其中是一个标量超参数。
监督损失是模型预测和真实标签之间的交叉熵:
其中α是弱增强函数,B是批量大小。无标签实例的伪标签是从弱增强的无标签样本生成的,它们用于监督对强增强样本的模型预测。将概率最大的类别落在置信度阈值τ以下的实例视为不可靠样本并丢弃。形式上,非监督损失可以被表达为:
其中β是强增强函数,µ确定了小批量中标记样本和无标签样本的比例。
CLIP用于零样本学习。CLIP是一种从头开始学习图像表示的高效可扩展方法,使用了由大约4亿组图像-文本对手动策划的数据集,并且这些数据集大致上具有查询平衡性。在预训练阶段,通过最大化(最小化)配对(未配对)标题和视觉图像之间的相似性来优化图像编码器和文本编码器。
为了生成无标签数据的伪标签,并实现对目标数据集的零样本迁移,CLIP使用自然语言提示的方式。即,CLIP使用目标数据集类别的名称或描述作为潜在文本配对的集合,如“一张狗的照片”,并根据图像-文本对的余弦相似性预测最有可能的类别。具体地,首先通过它们各自的编码器计算图像的特征嵌入和可能文本集合的特征嵌入;然后评估这些嵌入的余弦相似性,并通过softmax函数将其归一化为概率分布。

零样本学习中的偏见

尽管FixMatch训练所使用的无标签数据和有标签数据是类平衡的,但其伪标签在不同的训练阶段中存在着严重的不平衡。相比之下,DebiasPL在后期生成了几乎平衡的伪标签。FixMatch和DebiasPL的概率分布是对所有无标签数据进行平均的。类别索引按平均概率进行排序。我们在CIFAR10数据集上进行了实验证明,每个类别只有4个有标签的实例。
尽管FixMatch训练所使用的无标签数据和有标签数据是类平衡的,但其伪标签在不同的训练阶段中存在着严重的不平衡。相比之下,DebiasPL在后期生成了几乎平衡的伪标签。FixMatch和DebiasPL的概率分布是对所有无标签数据进行平均的。类别索引按平均概率进行排序。我们在CIFAR10数据集上进行了实验证明,每个类别只有4个有标签的实例。
图2展示了FixMatch在不同训练时期对所有未标记数据平均的概率分布。令人惊讶的是,即使标记和未标记数据都是精心筛选的(在类别上平衡),伪标签仍然存在高度的类别不平衡,尤其是在早期训练阶段。随着训练的进行,这种情况仍然存在。 学生模型将继承隐式存在的不平衡伪标签,并进一步强化教师模型的偏见。一旦混淆样本被错误地伪标记,几乎没有机会进行自我纠正。相反,它可能会误导模型并进一步放大现有的偏见,产生更多的错误预测。如果没有干预,模型将陷入不可修复的偏见中。
相反,在图2中可以看到,虽然DebiasPL在开始时也受到不平衡的伪标签的困扰,但通过动态去偏置模型,这种情况可以得到显著缓解,最终可以获得几乎平衡的分布。

零样本学习中的Bias

CLIP在ImageNet上实际上产生了高度偏倚的预测,这是CLIP在整体零样本预测准确率方面取得巨大成功背后隐藏的问题。 除了不平衡问题外,许多高频类别的精确度和召回率远低于许多中-/少样本类别,如图3所示。基于置信度得分对CLIP的预测进行阈值处理可能会有所帮助。然而,简单地设置更高的置信度得分阈值可能会导致更不平衡的分布(更多细节参见附录)。在不平衡比率和精确度/召回率之间存在权衡。
高度偏倚的零样本预测不仅仅存在于ImageNet中,它们广泛存在于许多基准数据集上,例如EuroSAT [21]、MNIST [29]、CIFAR10 [27]、CIFAR100 [27]和Food101 [7],如图4所示。
使用预训练的CLIP在130万个ImageNet实例上进行的伪标签预测的每个类别的精确率和召回率。召回率较高的多数类别往往具有较低的精确伪标签。
使用预训练的CLIP在130万个ImageNet实例上进行的伪标签预测的每个类别的精确率和召回率。召回率较高的多数类别往往具有较低的精确伪标签。
notion image

Inter-Class Correlations

为了深入研究偏倚的伪标签产生的原因,我们对类间相关性进行了分析。对于CLIP,我们首先通过计算每个类别的图像质心来获得一个质心。这是通过对属于该类别的图像特征进行归一化并取平均值来实现的,这些图像特征是由预训练的CLIP模型的图像编码器提取的。我们可视化了拥有前10个/后10个预测频率的类别的图像质心与其最相似的“混淆”类别之间的余弦相似度。预测的混淆表明了类别级别上的图像相似性。图5显示,ImageNet的低频类别,即每个类别拥有最少10个CLIP预测的类别,通常存在较强的类间混淆。
notion image
图6a显示了FixMatch的伪标签的混淆矩阵。观察到一些类别中的许多实例往往被错误分类为一个或两个特定的负类;例如,“ship”经常被错误分类为“plane”。
notion image
根据我们对类间相关性的分析,我们认为伪标签偏倚的原因主要可以归因于类间混淆,而所提出的DebiasPL可以成功地解决这个问题,如图6b所示。下一节将介绍DebiasPL方法。

Debiased Pseudo-Labeling

本节介绍了去偏化伪标签(Debiased Pseudo-Labeling,简称Debi-asPL)以及如何将其引入到零样本学习(ZSL)和半监督学习(SSL)任务中的方法。值得注意的是,这种提出的简单而有效的方法适用于各种网络和基准测试,并不仅限于此处介绍的网络和基准测试。

Adaptive Debiasing

我们的DebiasPL方法旨在动态减轻偏倚的伪标签对学生模型的影响,而不依赖于先验知识来处理跟随不同分布的源数据和目标数据。为此,我们提出了一种基于反事实推理和自适应边际损失的自适应去偏方法来实现这一目标,下面进行描述。
自适应去偏与反事实推理:因果推断是仅使用事实前提条件推导反事实结论的过程,其中因果图模型表示变量之间的干预关系。它已被广泛应用于各种任务中,以消除几乎所有实证研究中普遍存在的选择偏差,使用因果干预消除混淆效应,通过反事实推理来解开所需的直接效应等。
在此启发下,为了动态减轻不希望的偏倚影响,我们通过反事实推理将产生去偏预测的因果性结合起来。
notion image
根据图8中提出的因果图,我们可以勾勒出生成去偏预测的目标:追求之间的直接因果效应,称为受控直接效应(CDE)。
即,如果个体暴露于 (使用符号),则与同一个体暴露于以及level D保持不变时的反事实结果之间的对比。CDE可以解开反事实理论世界中的模型偏差,其中当A = Â但D保持的值时,模型偏差被视为Y的间接效应。
然而,通过访问所有训练样本来测量反事实结果计算上是相当昂贵的。我们使用近似受控直接效应(ACDE)来代替。ACDE假设模型偏差并未发生 drastically改变,因此动量更新的反事实结果可以作为真实的的近似值。带有反事实推理的去偏logits,后者用于执行伪标签(即,在等式1中替换),可以被形式化为:
这里,是动量系数,指的是弱增强无标签实例的logits, 是通过softmax函数获得的实例的概率分布。表示去偏因子,它控制间接效应的强度。如果去偏因子过大,则模型难以适应数据,而太小则几乎无法消除偏差,最终影响了泛化能力。由于logits的尺度不稳定,尤其是在早期训练阶段,我们使用概率分布而不是直接使用等式3中的logit向量的第二项。我们将对数函数应用于重新缩放的p以匹配logit的量级。
等式3可以与长尾识别中的重加权和logit调整方法相关联,而我们的方法是动态自适应的。
自适应边际损失:如前文所述,在伪标签中的偏差可能部分是由于类间混淆造成的。为此,我们应用自适应边际损失来要求在几乎没有偏差和高度偏倚的类别之间有更大的边际,以使高度偏倚的主导类别的得分不会压倒其他类别。此外,通过强制实施动态类别特定的边际,可以大大抵消类间混淆,这在图6中得到了进一步的实证证明。自适应边际损失可以形式化表示为:
其中
我们使用L AML 来替代等式1中的。然后,通过将等式1与等式3和等式5进行更新,我们得到最终的无监督损失。
(可选)所有概率较低的无标签实例都不会对最终损失产生影响。我们发现将交叉级别的实例组判别损失CLD应用于无标签实例可以充分利用它们的信息。

Distinctions and Connections with Alternatives

请参考第2节,了解关于LA、LDAM和Causal Norm的介绍。同时,我们还将比较在半监督学习分布对齐(DA)中另一种常用方法[4]。该方法旨在鼓励模型预测的实际边际分布与实际类别边际分布相匹配。
请参考表1,了解这些与处理分布不匹配和长尾识别相关的替代方法在关键属性上的区别和联系,以及表2和表3中的实验结果比较。
notion image
使用具有动态调整的动量更新的p值对偏差伪标签进行校正,并应用自适应边际损失,对于DebiasPL的成功至关重要。这还使得我们的训练目标不一定需要使用真实的类别边际分布作为先验知识。此外,由于每个类别的训练样本数量并不一定会导致更高的模型偏差,与LA和LDAM中基于每个类别样本数量的测量边际相比,动态调整边际可以更好地尊重每个类别的偏差程度。仅仅基于样本数量无法确定偏差的程度。并且,与以往的作品(例如LA/LDAM和Causal Norm)使用固定边际或调整不同,我们认为每个类别的偏差程度不应该是一个固定值,而是处于动态变化的过程中。偏差的原因不仅仅可以归因于数据本身,还要考虑模型和数据之间的交互引起的原因。
对于DA,最大的问题是它局限于真实的类别边际分布可用的情况,或者源数据和目标数据来自相同的分布,这在现实世界中太理想化了。
在几个基准测试中进行了实验,以展示DebiasPL的有效性和可行性。在不平衡数据上,表1显示将LA [38]集成到FixMatch的效果远远落后于使用DebiasPL的FixMatch。对于平衡数据,由于调整或重新加权向量是基于真实的类别分布计算的,大多数依赖真实类别边际分布的现有长尾方法在没有重大改变的情况下不再适用(平衡的类别分布导致对所有类别的相同处理)。

DebiasPL for T-ZSL and SSL

对于半监督学习,我们提出的DebiasPL方法可以被集成到FixMatch中,如图7所示,采用自适应去偏模块和自适应边际损失。为了进一步提升SSL的性能并利用视觉-语言预训练模型的能力,在训练过程中,我们还可以通过使用CLIP对FixMatch/DebiasPL中的被丢弃的无标签实例进行伪标记来集成CLIP。因为CLIP对于不确定的实例可能是有噪声的,只有当CLIP的置信度得分大于τ clip时,才会对这些无标签实例进行CLIP的伪标记。我们可以获取CLIP在所有训练数据上的预测结果,并将其存储在字典中,而不需要每次迭代重新预测。因此,使用CLIP模型引入的计算开销是可以忽略的。我们只在大规模数据集上使用CLIP,因为在像CIFAR10这样的低分辨率数据集上使用CLIP只能获得较小的增益,部分原因是CLIP中缺乏基于尺度的数据增广[49]。
notion image
notion image
对于归纳式零样本学习,为了更好地利用从视觉-语言预训练模型中学到的知识,并在将知识传递到下游ZSL任务时缓解域转移问题,我们开发了一个基于FixMatch和CLIP的归纳式零样本学习(T-ZSL)的新框架。
具体来说,我们再次利用伪标记的思想,通过利用one-hot标签(即模型输出的arg max)并保留其最大类别概率大于置信度阈值τ clip(默认为0.95)的伪标签。这些实例连同其伪标签被视为SSL中的“有标签数据”。 在此之后,我们可以遵循原始的FixMatch流程来同时优化“有标签”和“无标签”数据。为了与之前的工作进行公平比较和简化整体系统,包括模型初始化部分,所有其他训练配方和设置均与原始的FixMatch+EMAN设置保持一致。该图表在附录中。
由于CLIP存在高度偏见,vanilla FixMatch + CLIP框架性能低于原始的CLIP零样本学习,验证了我们之前的假设,即从具有偏见的模型学习可能会进一步放大现有的偏见并产生更多错误的预测。因此,我们使用自适应边际损失来更新无监督损失,以缓解类间混淆,并使用自适应去偏方法生成去偏的伪标签,如4.1节所述。
notion image

参考文章

 
 
致谢:
💡
有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
 
 

Loading...
Robust Positive-Unlabeled Learning via Noise Negative Sample Self-correction

🗒️Robust Positive-Unlabeled Learning via Noise Negative Sample Self-correction

Learning from binary labels with instance-dependent noise

🗒️Learning from binary labels with instance-dependent noise