AutoLabel: CLIP-based framework for Open-set Video Domain Adaptation

type

status

date

slug

summary

🤔 摘要

开放集无监督视频领域适应（OU-VDA）处理的是将动作识别模型从有标签的源域适应到包含“目标专有”类别（即在目标域中存在但在源域中不存在的类别）的无标签目标域的任务。在本研究中，我们偏离了先前训练专用开放集分类器或加权对抗学习的方法，提出使用预训练的语言与视觉模型（CLIP）。CLIP 由于其丰富的表示能力和零样本识别能力，非常适合于 OUVDA。然而，使用 CLIP 的零样本协议拒绝目标专有实例需要对目标专有标签名称具有先验知识。为了规避对标签名称的知识不可能性，我们提出了 AutoLabel，它可以自动发现和生成以物体为中心的组合候选目标专有类别名称。尽管其方法简单，我们表明当 CLIP 配备了 AutoLabel 后，能够令人满意地拒绝目标专有实例，从而促进两个领域之间共享类别的更好对齐。代码可用。

📝主旨内容

在视频序列中识别动作是计算机视觉领域的一项重要任务，广泛应用于人机交互、体育、监控和异常事件检测等多个领域。由于其在众多实际应用中的高重要性，动作识别已经被广泛使用深度学习技术进行研究【33, 46, 60】。在监督学习中，动作识别取得了显著的成功【6, 17, 51】，而最近在无监督学习领域也展现出了良好的前景【21, 35, 58】。由于构建大规模的注释和精心整理的动作识别数据集既具有挑战性又费用高昂，研究重点已经转向将模型从有标签的源域适应到感兴趣的无标签目标域。然而，由于源域和目标域之间的差异（或领域转移），在目标域中直接使用在源域中训练的模型会导致次优的性能表现。

为了应对领域转移并改进从有标签源数据集向无标签目标数据集的知识转移，文献中提出了无监督视频领域适应（UVDA）方法【7, 9, 44】。大多数先前的 UVDA 文献设计的假设是源域和目标域的标签空间是相同的。这是一个非常严格的假设，在实际中很容易失效，因为目标域可能包含源数据集中不存在的动作类别样本【45】。为了使 UVDA 方法在实际设置中更有用，最近提出了开放集无监督视频领域适应（OUVDA）方法【5, 8】。OUVDA 的主要任务是通过排除目标域独有的动作类别（也称为目标专有或未知类别），来促进两个领域之间共享（或已知）类别的适应。现有的 OUVDA 研究主要采用训练专用的开放集分类器【5】或加权对抗学习策略【8】来排除目标专有类别。

相反，我们通过利用开源基础语言与视觉模型（LVMs）的丰富表示来解决 OUVDA 问题。特别是，我们使用了 CLIP（对比语言-图像预训练）【47】，这是一个基于网络规模的图像-文本对进行训练的基础模型，作为我们框架的核心元素。我们认为，LVMs（例如 CLIP）自然非常适合 OUVDA 设置，因为：(i) LVMs 从网络监督的图像-字幕对中学习到的表示包含了大量关于现实世界的先验知识，这（意外地）有助于缩小数据分布的差距，即使是对于视频数据；(ii) 这种模型的零样本识别能力有助于识别和分离目标专有类别与共享类别，这反过来确保了两个领域之间已知类别的更好对齐。

使用 CLIP 进行零样本推理需要多模态输入，即测试视频和一组所有可能的提示“A video of {label}”，其中 label 是类名，用于计算余弦相似度（见图1a）。然而在 OUVDA 场景中，除了共享类别外，关于目标专有类别标签名称的先验知识是不可用的（目标数据集是无标签的）。因此，利用 CLIP 的零样本能力在不受限制的 OUVDA 场景中识别目标专有实例成为一个瓶颈。为了解决这个问题，我们提出了 AutoLabel，一个自动标注框架，它构建了一组候选目标专有类别名称，然后由 CLIP 使用这些名称以零样本方式潜在地识别目标专有实例。

具体而言，AutoLabel 的目标是通过一组候选目标专有类别名称来扩展共享类别名称集（来自源数据集），这些候选名称最好地代表当前目标数据集中的真实目标专有类别名称（见图1b）。为此，我们使用一个外部预训练的图像字幕生成模型 ViLT【32】从视频序列的每一帧中提取一组属性名称（详见附录B）。这是基于这样的动机：动作通常通过视频序列中的组成对象和演员来描述。例如，一个带有提示“A video of {chopping onion}”的视频可以通过代理提示“A video of {knife}, {onion} and {arm}”进行粗略描述，这些代理提示是由预测的属性名称生成的。换句话说，当将“knife”、“onion”和“arm”这些属性以提示的形式呈现给 CLIP 时，可以引发与真实动作标签“chopping onion”类似的响应。

通过简单地使用 ViLT 预测的属性扩展标签集可能会引入冗余，因为：(i) ViLT 每帧预测属性，因此视频序列中可能存在大量干扰物属性；(ii) ViLT 预测的共享目标实例的属性将是真实源动作标签的重复。共享类别名称中的冗余将导致目标专有实例的拒绝产生歧义。

我们提出的框架 AutoLabel 通过以下方式减少有效标签集中的冗余。首先，它在目标数据集上使用无监督聚类（例如 k-means【37】）来聚类目标样本，然后构建分配给每个聚类的目标样本中最频繁出现的前 k 个属性。这一步消除了对预测动作无关紧要的长尾属性集（详见 3.2.2）。其次，AutoLabel 通过使用集合匹配技术，移除与源类别名称相似的重复属性集（属于相同的共享基础类别）。在这一步结束时，有效标签集包括共享类别名称和代表目标专有类别名称的候选属性名称集（详见附录 B.2）。因此，AutoLabel 解锁了 CLIP 的零样本潜力，这在不受限制的 OUVDA 场景中非常有利。

最后，为了将知识从源数据集转移到目标数据集，我们采用了一种简单的伪标签机制进行条件对齐。具体而言，我们将目标样本和包含共享类别及候选目标专有类别的扩展标签集提供给基于 CLIP 的编码器。然后，我们为每个预测类别选择前 k 个伪标记样本，并使用它们来优化监督损失（详见第 3.2.4 节）。与许多开放集方法【5, 8】将所有目标专有类别拒绝为单一未知类别不同，AutoLabel 允许我们在目标专有类别之间进行区分。因此，AutoLabel 的创新之处不仅在于促进了从共享类别中拒绝目标专有类别，还为开放世界识别开辟了新的可能性【1】。

总结来说，我们的贡献是：(i) 我们展示了像 CLIP 这样的语言与视觉模型（LVMs）可以用于解决开放集无监督视频领域适应（OUVDA）问题，并且可以很好地替代复杂的对齐策略；(ii) 我们提出了 AutoLabel，这是一个自动标注框架，可以发现候选目标专有类别名称，从而促进共享实例和目标专有实例的更好分离；(iii) 我们在多个基准数据集上进行了全面的实验评估，并超越了现有的 OUVDA 最先进的方法。

🤗方法

在这项工作中，我们提出了 AutoLabel 来解决在目标数据集包含源域中不存在的动作类别样本的约束下，将模型从有标签的源数据集适应到无标签目标数据集的任务。在描述 AutoLabel 的详细内容之前，我们首先形式化开放集无监督视频领域适应（OUVDA）并介绍我们框架中使用的初步知识。

问题定义和符号

假设我们有一个包含标记视频序列的源数据集，其中代表输入视频，代表 K 个共享类别名称，而不是类别索引。例如，。此外，我们还有一个包含来自类别的 n 个样本的无标签目标数据集。特别地，，其中代表 M 个目标专有类别名称，并且我们事先不知道这些名称。每个视频序列由帧组成，，展示了一个带有标签的动作。

在开放集无监督视频领域适应（OUVDA）中，目标是使用学习一个参数化函数，该函数能够正确预测共享目标实例属于中的某一个类别，并将目标专有实例拒绝为“未知”。

概述

为了解决 OUVDA，我们提出了 AutoLabel（见图2），这是一个基于 CLIP 的框架，包括一个作为文本编码器的 Transformer【55】和一个作为视觉编码器的 ViT【15】。在实践中，我们使用了 ActionCLIP 架构【57】，该架构具有额外的自注意力时间池化，用于聚合帧级特征以输出视频级特征。为了在没有访问权限的情况下识别目标专有实例，AutoLabel 生成了一组候选目标专有类别名称。

图 2. AutoLabel 框架在 OUVDA 中的概述：

(a) ActionCLIP [57] 的骨干：ActionCLIP 构成了 AutoLabel 的核心，用于提取视频级和文本标签表示。

(b) 使用 ViLT [32] 提取每帧属性：从每一帧中提取属性。

(d) 丢弃冗余候选标签并使用属性匹配识别候选目标专有类别名称。

(e) 扩展标签集 ：扩展的标签集使得能够拒绝目标专有实例。

通过这种方式，AutoLabel 框架解决了 OUVDA 问题，确保共享类别和目标专有类别的有效区分和识别。

具体而言，AutoLabel 使用预训练的 ViLT【32】从目标视频序列的帧中预测一组属性。然后，它对视频级目标特征进行无监督聚类，将视频序列聚类成相应的语义簇。所有预测的帧级属性，与分配给给定簇的视频序列相关联，都被过滤以得到前 k 个最显著的属性。然后，这些前 k 个属性被连接起来形成一个代理动作标签名称。注意，这一步将为每个簇生成一个候选标签名称，包括与共享类别对应的名称。为了消除歧义并将冗余的类别标签名称与已知的共享类别名称合并，我们使用集合匹配技术。在这一步结束时，有效的标签集将包括共享类别名称和候选目标专有类别名称。

在创建扩展标签集之后，通过将目标视频序列和扩展标签集分别提供给 ActionCLIP 的文本编码器和视觉编码器来计算无标签目标样本的伪标签。每个预测类别中置信度最高的前 k% 个预测（使用输出概率分布的 argmax 计算）作为硬伪标签，用于优化 ActionCLIP 的多模态训练目标。以下是 ActionCLIP 的总结。

自动标签网络

AutoLabel 框架的主要任务

AutoLabel 框架的主要任务是赋予 ActionCLIP 零样本检测能力，使其能够在不依赖目标专有类别名称的先验知识的情况下，应用于开放集无监督视频领域适应 (OUVDA)。为此，AutoLabel 依赖于以下四个子模块：

属性提取：

负责从视频帧中提取一组帧级属性（例如，演员和对象）（见图 2b）。

候选标签构建：

使用预测的属性构建一组对应于不同语义类别的目标域候选标签（见图 2c）。

属性匹配：

进一步减少候选标签名称中的冗余，这些冗余是已知共享类别名称 \( Y_S \) 的重复项（见图 2d）。

伪标签生成：

使用共享和候选目标专有类别名称来拒绝目标专有实例（见图 2e）。

属性提取

如第1节所讨论，我们的自动标注方法的动机在于，动作常常通过视频中的物体和演员来描述。因此，仅仅对这些属性进行建模，并从这些属性构建候选标签名称，就足以排除目标私有实例，这是OUVDA的两个主要目标之一。我们使用了现成的图像描述模型ViLT [32]，并以一种特定方式对其进行提示，从而为每一帧获取一组属性。

具体而言，我们将视频帧和提示语 \( z = "There is a [MASK], a [MASK] and a [MASK]" 提供给ViLT模型。该模型输出了一组对于个被屏蔽标记最有可能的词。

其中，表示具有个属性的集合。如图2b所示，以一个例子来说明，ViLT预测出个属性："horse"，"person" 和 "fence"，对应于提示语中的三个被屏蔽的标记。

在类似的思路下，ZOC [16] 使用图像描述模型生成属性，以实现零样本预测。然而，我们与ZOC有以下不同之处： (i) ZOC 处理图像分类，而我们处理动作识别，(ii) ZOC 将每个属性视为候选类别，而我们通过组合多个属性来创建组合候选类别名称。这在动作识别中至关重要，因为动作名称源于物体和演员的互动；(iii) 与我们不同，ZOC没有处理由重复候选标签和共享类名引起的冗余。接下来，我们将描述AutoLabel如何将属性组合以创建候选动作标签名称，以及如何消除这种冗余。

发现候选类别

如上所述，动作标签名称是物体和演员之间互动的产物。例如，动作标签“ride horse”描绘了“horse”和“person”之间的互动。如果将属性集合中的属性视为孤立的候选标签，就像ZOC一样，那么对于一个骑马的视频，"horse" 和 "person" 文本的视觉和文本表示之间的余弦相似度将很高。此外，还可能存在其他干扰属性，例如 "fence"，如果出现在一个帧中，也会从CLIP中产生高响应。为了唯一地对真实标签 "骑马" 进行建模，我们提出以下策略:

首先，我们使用视频编码器 GV 对 DT 的所有目标视频进行聚类，将它们分成 C 个目标聚类，理想情况下应该代表语义类别。请注意，我们不假设关于真实基数的先验知识，并且我们设置。具体而言，我们使用标准的聚类算法 k-means [38]，其输入是视频级特征，并将它们分配给 C 个不同的质心，其中第 i 个视频序列的聚类分配表示为。接下来，我们为每个目标聚类构造一个直方图（见图2c），方法是使用与目标聚类 c 相关联的所有属性其中。请注意，此步骤在每个训练时期开始时执行。

我们期望与一个聚类相关的最频繁的属性是最突出和描述性的动作。如图2c所示，在“ride horse”聚类中，“horse”和“person”将是最频繁的属性，其余的属性将位于分布的尾部。我们筛选出中最常见和相关的 t 个属性，以获得。最后，我们将中的属性连接起来形成候选标签:

其中，·||· 表示由空格分隔的连接操作。有关 tfidf(·) 运算符的详细信息请参阅补充材料。由于目标是未标记的，我们目前无法区分共享候选标签和目标私有标签。因此，为了识别目标私有实例，我们需要一种机制来区分目标私有类名，接下来我们将描述这种机制。

属性匹配

属性匹配步骤负责找到与目标私有类相对应的候选标签名称。为此，我们简单地在候选标签集合中找到与源标签中的共享标签名称对应的候选标签名称。这将基本上使我们得到目标私有标签名称，而这些名称与源标签没有匹配（见图2d）。

具体而言，我们重复在源样本上描述的子模块，以获得属性集合，其中是一个源标签名称。然后，我们创建一个相似性矩阵，其中矩阵中的一个条目表示第个源标签名称与第个候选标签名称之间的相似程度，形式上定义为:

sim(·, ·)是一个评分函数，根据两个集合之间的共同属性及其出现情况计算相似度分数。有关 sim(·, ·) 的更多细节，请参阅补充材料。如果得分高于阈值 γ，则认为两个集合匹配，且第 j 个目标候选标签将被丢弃。在此阈值处理步骤之后，与任何源标签不匹配的中的候选标签成为候选目标私有标签名称，即

条件对齐

在属性匹配之后，我们得到了扩展的标签集合，其中包括共享标签和候选目标私有标签。现在，CLIP已经可以检测目标私有实例。具体而言，对于一个目标样本，我们计算预测标签（见图2e）如下:

如果，则将视为目标私有。

为了对齐两个域的共享类别，我们采用了一种简单的条件对齐策略，使用 Eq. (6) 计算的伪标签。在实践中，我们提取每个预测类别中前 k% 最自信的伪标签，并对这些带伪标签的目标样本进行监督的 ActionCLIP 损失反向传播（参见 Eq. (3)）。除了共享类别外，该损失还促进了目标私有类别的区分，因为与已发现的候选目标私有类别对应的梯度也会被反向传播。从开放世界识别的角度来看，这实际上是很有希望的，因为目标私有样本被分配到了它们各自的语义类别中，而不是一个单一的“未知”类别。

参考文章

致谢：

💡

有关Notion安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~