PADCLIP: Pseudo-labeling with Adaptive Debiasing in CLIP for Unsupervised Domain Adaptation

type

status

date

slug

summary

🤔 摘要

传统的无监督领域自适应（UDA）利用标记的源域来处理无标签目标域上的学习任务。当源域和目标域之间存在较大的领域差距时，这一过程变得更具挑战性。一个更实际的情况是利用大规模预训练模型来填补领域差距。例如，CLIP展示了良好的零样本泛化能力来弥合这一差距。然而，在特定调整目标域上的CLIP之后，应用传统的微调，CLIP会出现灾难性遗忘问题，即新的领域知识会迅速覆盖CLIP的预训练知识并使准确性减半。我们提出了灾难性遗忘测量（CFM），通过调整学习率来避免过度训练（从而减轻灾难性遗忘问题）。然后，我们利用CLIP的零样本预测，在CLIP中采用自适应去偏置的伪标签设置（PADCLIP），通过使用我们的动量和CFM调整因果推断。我们的PADCLIP允许在源域和目标域上进行端到端训练，而无需额外开销。我们在四个公共数据集上取得了最佳结果，在DomainNet上实现了显著的改进（准确率提高了18.5%）。

📝引言

无监督领域自适应（Unsupervised Domain Adaptation，简称UDA）旨在通过利用标注的源领域来将知识转移到无标签的目标领域，从而降低数据注释的成本[11,27,49,60,73]。当源领域和目标领域之间存在较大的领域差距时，这一任务变得更具挑战性。一个更实际的解决方案是利用一个大规模预训练模型来弥合领域差距。例如，CLIP在零样本泛化方面显示出很大的潜力来弥合这一差距。然而，在将CLIP应用于特定目标领域进行传统微调之后，CLIP会出现灾难性遗忘问题，新的领域知识很快就会覆盖CLIP的预训练知识，并将准确性减少一半。我们提出了灾难性遗忘度量（Catastrophic Forgetting Measurement，简称CFM）来调整学习率，以避免过度训练（从而缓解灾难性遗忘问题）。然后，我们利用CLIP的零样本预测来形成一个基于伪标签的自适应去偏置（Adaptive Debiasing）的伪标签设置，并通过我们的动量和CFM来调整因果推断。我们的PADCLIP允许在源领域和目标领域上进行端到端训练，无需额外开销。我们在四个公共数据集上取得了最佳结果，在DomainNet上获得了显著改进（+18.5%准确率）。

传统的无监督领域自适应（UDA）方法通过利用标注的源领域将知识转移至无标注的目标领域来降低数据注释成本[11,27,49,60,73]。先前的UDA方法集中于弥合源领域和目标领域之间的领域差距[4, 12,25,27]，或通过将卷积神经网络（如ResNet [14]）改为视觉Transformer（ViT）[9]来增加网络容量[49,60]。这些方法都是在ImageNet[7]上进行预训练的，但大规模预训练正在变得实用，并且在许多领域取得了更好的性能[41,64,65,67]。理论上，如果预训练数据集足够大，那么预训练数据集本身就足以弥合源领域和目标领域之间的领域差距。因此，我们认为大规模预训练是UDA中一个重要的缺失部分。

我们选择了CLIP[41]，这是一个在400万个图文对上进行预训练的视觉-语言模型。在不进行微调的情况下，CLIP在DomainNet[38]上的表现优于SSRT[49]，一个最先进的UDA方法。这要归功于大规模的训练集，它使得CLIP能够将物体类别与物体领域（例如，“一张狗的照片”与“一张狗的素描”）解耦：CLIP使用的句子形式的语言监督比单一的类别标签更加描述性。然而，在VisDA-2017上，没有进行微调的CLIP的表现不及以前的方法SDAT[42]。这是因为从现实世界领域生成的合成数据在CLIP的训练集中不存在，因此我们仍然需要对CLIP进行微调以适应特定的领域任务。

我们首先采用传统方法在VisDA-2017上对CLIP进行微调，但发现CLIP存在灾难性遗忘问题。如图1所示：在微调之前，CLIP具有强大的表示能力，可以达到67%的ImageNet top-1准确率，但在VisDA-2017上的微调之后，准确率降至22%。CLIP表示能力的损失导致了在VisDA-2017上的准确率下降。要解决这个问题，可以通过同时微调CLIP和VisDA-2017数据集来保留CLIP的表示能力，但CLIP需要几周的时间来训练一个单一的设置（DomainNet有30个设置，所以一个实验需要一年的时间）。此外，我们预计在联合训练过程中会出现数据不平衡问题，因为CLIP的训练集比VisDA-2017大142倍。我们寻求一种更实用的解决方案来解决灾难性遗忘问题，而不会增加额外的开销。

我们尝试在UDA数据集上以较低的学习率微调CLIP，并观察到更少的灾难性遗忘问题，但较低的学习率会阻止CLIP学习新的知识。为了解决这个问题，我们提出了灾难性遗忘度量（Catastrophic Forgetting Measurement，简称CFM）来比较原始表示（在原始CLIP上前向传播原始图像）和微调后的表示（在微调CLIP上前向传播增强的图像），来调整学习率。然而，CFM是不稳定的，因为每个图像的遗忘率不同，所以我们利用我们的观察结果，当训练样本容易时，CLIP在所有增强图像上的预测很可能相似（对于困难的样本，预测差异很大）。我们提出将弱（平移，翻转）和强增强（扰动视觉外观）之间的一致性作为动量（双一致性动量，DCM）来稳定CFM。我们的方法不会引入额外的开销：由于增强已经是微调过程的一部分，可以缓存原始预测，并且我们不需要同时微调UDA和CLIP数据集。

我们进一步探索在目标领域中使用CLIP进行伪标签的方法，在UDA中最近取得了成功[35,60,75,76,76]。DebiasPL[57]利用CLIP进行伪标签，但只适用于单一领域。在扩展为源领域和目标领域（UDA设置）之后，DebiasPL[57]存在灾难性遗忘问题（在微调后VisDA-2017的准确率下降了21%）。

为了解决这个问题，我们将DebiasPL[57]中的固定去偏置系数替换为我们的CFM，并将固定动量替换为我们的自适应动量（DCM）。我们还将领域名称包含在提示中（例如：“This is a [sketch] photo of [car]”）。我们的方法缓解了灾难性遗忘问题，在DomainNet[38]、VisDA-2017[39]和Office-Home[54]上取得了最佳结果。

🤗方法

在给定一个有标签的源域和一个无标签的目标域的情况下，我们的目标是从有标签的源域优化一个模型到无标签的目标域。其中 Ns 和 Nt 分别表示源域和目标域的数据集大小。

CLIP in UDA

我们首先修改CLIP以适用于无监督领域自适应（UDA）任务。CLIP [41]由一个视觉编码器（将图像映射为低维图像表示）和一个文本编码器（将句子映射为文本表示）组成。CLIP要求图像-文本对共同训练和，使用对称的交叉熵损失[58]来度量图像和文本表示之间的差异。我们按照提示工程的方法[41]准备UDA数据集中的图像-文本对。我们的标签表示一个形如"a [DOMAIN] photo of a [CLASS]"的句子，其中[CLASS]是一个分类类别名称，[DOMAIN]是UDA任务中的域名称（例如，一个合成的人物照片）。在测试时，我们遵循CLIP的零样本推断方法，通过将图像表示与文本编码器生成的分类权重进行比较来判断。表示为。通过将对应于K个类别的K个描述信息进行传递，我们可以计算训练图像属于第k个类别的概率。

其中，T是由CLIP学习得到的温度参数，cos表示余弦相似性[41]，我们将的向量表示为p（一个mini-batch中样本的概率）。

Catastrophic Forgetting Measurement

在将CLIP用于无监督领域自适应（UDA）并尝试在UDA数据集上对CLIP进行微调后，我们发现CLIP存在灾难性遗忘问题（图1）。我们探索了Tab. 1中的基线，并发现原始的CLIP（没有考虑CLS [56]引入的“弱”（无外观变化：平移、翻转）和“强”（扰动外观：CTAugment [2]、RandAugment [6]）数据增强，并提出通过计算两种增强方式生成的表示之间的距离来衡量。当差异较大时，我们降低学习率，因为观察到当CLIP在困难的训练样本上遇到困难时，“强”数据增强出现的错误比“弱”数据增强的预测更多（导致更多遗忘）。结合我们的两个建议，我们构建了一个三元组，包括原始图像的原始CLIP表示、对“弱”数据增强进行微调的CLIP表示和对“强”数据增强进行微调的CLIP表示。我们使用欧几里德距离来衡量每对表示的相似性，并将所有对的距离求和得到我们的三元组距离()。当每对的差异较大时，我们改变符号以降低学习率。

其中∼表示使用L2范数进行表示归一化（例如，），以将每个表示限制在[-1, 1]之间。所有项的求和在[0, 6]的范围内，因此我们将求和除以6，以使的范围为[0, 1]，并对batch大小（B）的距离进行平均。然而，不稳定，因为输入（）在每次迭代中都会发生变化，因此学习率将不断调整（导致不稳定的训练）。为解决这个问题，我们提出了一个动量来减缓的变化。我们衡量“弱”和“强”表示之间的一致性，用作双一致性动量（DCM, m s ）。

其中cos是余弦相似度。当一致性较低（表示一个困难的训练样本）时，我们使用低动量（较小的，较慢的变化）。我们将三元组距离与DCM结合起来定义灾难性遗忘度量用于每个迭代步骤（z），其中。

Pseudo-labeling and Inter-class Bias

CLIP中的伪标记（Pseudo-labeling）方法。在无监督领域自适应（UDA）中，伪标记方法通过利用无标签目标领域数据取得了成功，但过去的方法并不适用于CLIP。DebiasPL方法适用于CLIP的伪标记，但它是针对单一领域设计的。我们首先按照DebiasPL的方法，在目标领域的"弱"增强样本上生成一个软标签，即，然后通过使用一个one-hot编码器（1）将软标签转换成硬标签，并使用一个固定的阈值（τ = 0.4）选择高置信度的伪标签。我们通过使用交叉熵损失（H）来制定一致性损失（），将从"强"增强（）产生的预测向与"弱"增强的伪标签接近

伪标记中的类间偏差是由于依赖训练模型生成伪标签引起的。如果多个类别具有相似的外观（例如，狗和狼），模型往往会产生预测错误，从而生成不正确的伪标签。随着训练的进行，这些不正确的伪标签会进一步增加现有的偏差，并最终导致显著的准确率下降。过去的伪标记去偏差方法在一般情况下表现良好，但由于源领域和目标领域之间存在领域差异，UDA情况下的偏差更加严重。我们通过对伪标签质量进行分析（如图3所示），观察到共存效应，即许多属于混淆类别的样本往往被错误地分类为其他相似类别（例如，"bus"、"car"和"truck"都属于"vehicle"）。我们希望在抵御灾难性遗忘的同时，有效地减轻类间偏差。

消除偏倚的伪标签方法。类间偏倚会降低伪标签的质量，并降低具有相似外观的类别（例如：公交车、轿车、卡车）的召回率。我们的消除偏倚方法可以缓解这些问题并提高召回率。

Pseudo-labeling with Adaptive Debiasing

因果推断。我们采用DebiasPL[57]的方法来使用因果推断来减轻伪标签中的类间偏差。给定图4中的因果图，预测的去偏可以被描述为沿着的直接因果效应，也被称为受控直接效应(CDE)[43,50,57]。

其中表示对进行因果干预 [13]，以消除模型偏差(M)。在这里，。然而，遍历所有训练样本来测量反事实结果是计算上昂贵的。

Debiasing by DebiasPL

根据DebiasPL [57]章节，我们采用近似控制直接效应(Approximated Controlled Direct Effect, ACDE)的方法，假设模型的偏差不会发生剧烈变化。在我们的设置中，这一假设成立，因为我们的目标是微调CLIP并保留原始知识。我们将公式6中的第一项近似表示为：

其中是公式1中的预测向量，是去偏预测，m是固定的动量。然后可以将去偏伪标签表示为：

Debiasing by CFM.

DebiasPL [57]是为单个领域设计的（DebiasPL的设置将单个数据集（如CIFAR-10）分为带标签（源）和无标签（目标）数据）。因此，在UDA中（Tab. 2），它会受到领域差异的严重影响。我们确定去偏因子（µ，公式8）是根本原因之一，因为µ是敏感的（小µ不能消除偏差，大µ会阻止模型学习新知识[50, 57]）。此外，µ被设置为固定值，但偏差取决于领域设置（例如，真实世界与合成世界比草图与快速绘图更容易偏差），因此我们提出自适应调整µ。我们结合灾难性遗忘信息，通过将µ调整为来自适应调整µ，并将固定动量（m，公式7）替换为来自适应调整m。去偏的CFM和DCM都是在目标域输入上计算的。

我们对DebiasPL的改进。我们在VisDA-2017源域训练集上对DebiasPL (ResNet-101) 进行微调，并在VisDA-2017目标域验证集上进行测试。我们的改进缓解了灾难性遗忘问题，并改善了伪标签的质量。

最后，去偏一致性损失()通过将q替换为来表示在一致性损失（公式5）上的损失。

端到端pipline

图2显示了这个流水线。我们使用对称对比损失[41]（L sup）和去偏一致性损失（L dcp）。

其中Λ是用于调整的常数项。我们使用CFM（，公式2）来调整以减轻灾难性遗忘问题。我们的损失公式允许端到端训练，同时保留CLIP知识、在源域上进行监督微调以及在目标域上使用去偏伪标签进行微调。

概述。对于源域，我们将标签和域名转换为提示，并获得文本和图像表示以进行CLIP的有监督训练。我们使用CLIP的原始表示以及弱/强增强表示来测量CFM，以调整学习速率以缓解灾难性遗忘问题。对于目标域，我们使用CLIP中的零样本预测来获得伪标签，并使用CFM（调整去偏因子）和DCM（调整动量）对其进行自适应去偏，以进行无监督学习。*伪标签转换为提示以获得文本表示。

参考文章

致谢：

💡

有关Notion安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~