Large-Scale Pre-training for Person Re-identification with Noisy Labels

type

status

date

slug

summary

🤔 摘要

简介：本文旨在解决带有噪声标签的人员重新识别（Re-ID）的预训练问题。为了设置预训练任务，作者对现有未标记 Re-ID 数据集“LUPerson”的原始视频应用了一个简单的在线多对象跟踪系统，并构建了名为“LUPerson-NL”的噪声标记变体。由于这些从 tracklets 自动派生的 ID 标签不可避免地包含噪声，因此作者开发了一个利用噪声标签 (PNL) 的大规模预训练框架，该框架由三个学习模块组成：有监督的 Re-ID 学习、基于原型的对比学习和标签引导的对比学习。原则上，这三个模块的联合学习不仅将相似的示例聚类到一个原型，而且还能根据原型分配纠正噪声标签。作者证明：直接从原始视频中学习是一种很有前途的预训练替代方案，它利用空间和时间相关性作为弱监督。这个简单的预训练任务提供了一种可扩展的方式，可以在“LUPerson-NL”上从头开始学习 SOTA Re-ID 表示，而无需花哨的东西。例如：通过应用相同的监督 Re-ID 方法 MGN，作者的预训练模型在 CUHK03、DukeMTMC 和 MSMT17 上分别比无监督预训练对应物提高了 5.7%、2.2%、2.3%。在小规模或小样本设置下，性能提升更为显着，表明学习表示具有更好的可迁移性。

📝介绍

由于缺乏大规模Re-ID数据集,大多数先前的方法简单地使用的模型前训练crowd-labeled ImageNet数据集,导致有限的改善,因为大GAP在ImageNet通用图像和person-focused Re-ID所期望的图像的任务之间的差距。有人用大量无标注的行人数据LUPerson预训练，超过了用ImageNet的效果。假设如果直接用来自原始视频做预训练，就能够融入视频中空间和时间的相关性作为弱监督信号，产生更好的特征表达。于是他们基于LUPerson的原始视频，使用FairMOT跟踪算法抽取行人检测框，为算法跟上的人赋予一个id，制作了有1千万图片43w id的数据集——LUPerson-NL, LUPerson本身是没标注的，NL意味着Noisy Labels.

他们又提出了使用这些带有噪声的标记的训练框架，Pre-training framework utilizing Noisy Labes(PNL), 包含三个模块：

一个简单的有监督学习模块，直接通过分类从Re-ID标签中学习

基于原型的对比学习模块有助于将实例聚类到动态更新的原型中，通过移动平均实例特征的质心，逐步纠正噪声标签

标签引导的对比学习模块随后使用校正的标签作为指导

与仅将相同实例的特征视为正样本的基准动量对比学习[7,12,19]相比，我们的标签引导的对比学习使用校正的标签来区分正样本和负样本，从而提高了性能。原则上，这三个模块的联合学习可以使原型分配与实例之间的一致性尽可能高，并且与高置信度（校正）标签也尽可能高。

🤗LUPerson-NL: LUPerson With Noisy Labels

基于深度网络的有监督模型总是需要大量数据，但它们所依赖的标记数据获取成本很高。这对于人员再识别任务来说是一个巨大的问题，因为人类标注者需要跨多个视图进行检查，以确保再识别标签的正确性。数据短缺问题在最近发布的LUPerson [12]数据集中得到了部分缓解，这是一个包含未标记的人员图像数据的数据集，规模比以前的人员再识别数据集大得多。在LUPerson上进行的无监督预训练模型[12]在不使用额外手工注释的情况下已经展现了显著的有效性，这引起了我们的好奇心：我们能否通过利用时间相关性作为弱监督来直接进一步提高预训练的性能？为了验证这一点，我们在LUPerson的原始视频基础上建立了一个新的变体，并为每个人员图像分配了一个由自动生成的轨迹标记。我们将其命名为LUPerson-NL，其中NL表示噪声标签。它由约430K身份的10M图像组成，收集自21K个场景。据我们所知，这是目前最大的人员再识别数据集，且没有进行人工标注。我们的LUPerson-NL只会用于科学研究的目的，而任何其他目的的使用都是被禁止的。

Constructing LUPerson-NL

我们利用现成的跟踪算法[56]FairMOT从[12]相同的原始视频中检测人员并提取人员轨迹。我们为每个轨迹分配一个独特的类标签。检测并不完美：例如，边界框可能仅覆盖部分身体而没有头部或上半身。因此，我们添加了人体姿态估计[47]来帮助通过预测地标来过滤出不完美的边界框。我们逐帧跟踪视频中的每一个人。为了保证充分性和多样性，我们采用以下策略：i）我们首先删除在太少的帧中出现的人员身份，即不超过200个；ii）在每个身份的轨迹内，我们以每20帧采样一个图像的速率进行采样，以减少重复图像的数量。因此，我们可以确保每个身份至少有10张图像。通过这个过滤过程，我们总共收集了10,683,716张433,997个身份的图像。它们属于21,697个视频，少于[12]使用的视频，因为我们采用了更可靠的身份标签的额外过滤策略。因此，LUPerson-NL与LUPerson非常不同，因为它采用非常不同的采样和后处理策略，更不用说从空间-时间信息驱动噪声标签了。

Properties of LUPerson-NL

LUPerson-NL在以下方面具有优势：大量的图像和身份。

我们在表1中详细列出了现有的流行人员再识别数据集的统计信息。如我们所见，LUPerson-NL提供了超过10M张图像和433K个噪声标记身份，是列出的数据集中第二大的。事实上，SYSU30K的图像更多，但它是从仅有1K个电视节目视频中逐帧提取图像，使其在变异性方面不那么竞争力，也更不适用于实践操作。有关预训练性能比较，请参见补充材料。此外，LUPerson-NL是在没有人类标注努力的情况下构建的，使其更适合扩展。身份分布平衡。

我们在图2中以曲线形式说明了身份对应的人员图像数量的累积百分比。曲线上的一个点（X，Y）表示LUPerson-NL中共有Y％的身份，它们中的每个人都有不到X张图片。可以观察到：i）LUPerson-NL中所有身份的75％左右的人像数量在[10, 25]之间；ii）拥有50张以上人像的身份占LUPerson-NL的很小一部分，约为6.4％（27, 767/433, 997）。所有这些观察结果都表明，我们的LUPerson-NL在身份分布方面是平衡的，使其成为适合人员再识别任务的数据集。

尽管我们在3.1节中提出了专门设计的跟踪和过滤策略，但由于当前跟踪方法的技术上限，我们获得的身份标签永远不能非常准确。图3展示了LUPerson-NL中由不同标注错误引起的两种噪声类型，噪声I是同一人被分为不同的轨迹，并被误认为是不同的人；噪声II是将不同的人认为是同一个人。

PNL: Pre-training with Noisy Labels for Person Re-ID

基于新的LUPerson-NL数据集，其中包含大规模的噪声标签，我们设计了一种新的预训练框架，即PNL（Noisy Labels for person Re-ID）用于人物重识别。我们将来自LUPerson-NL的所有数据样本表示为，其中n是数据集的大小，是一个人物图像，是与其关联的身份标签。这里的K表示LUPerson -NL记录的所有身份数量。

受到最近[4、5、7、17、19、28]的方法的启发，我们的PNL框架采用孪生网络进行对比表示学习，这已经得到了充分的研究。如图4所示，给定一个输入人物图像，我们首先执行两个随机选择的扩增，产生两个扩增图像。我们将其中一个，，馈送到编码器以获取查询特征；另一个，，则馈送到另一个编码器以获取关键特征。按照[19]的方法，我们将设计为的动量版本，即这两个编码器和共享相同的网络结构，但拥有不同的权重。中的权重是中的权重的指数移动平均值。在训练过程中，通过从进行动量更新来刷新的权重。详细算法可以在附加材料中找到。

Supervised Classification

由于在LUPerson-NL中，原始标签包含大量噪声，因此在训练过程中必须对其进行矫正。让成为图像的矫正标签。只要给出，我们就可以根据修正后的标签进行分类训练。特别地，我们会附加一个分类器，将从公式得出的特征变换为概率，其中K是类别数。然后我们会施加分类损失

然而，获取并不是直接的。我们采用原型，即从训练实例中提取的特征移动平均中心点，来完成这个任务。

Label Rectification with Prototypes

如图4所示，我们将原型维护为一个特征向量字典，其中K是类别数，表示代表类别的特征质心原型。在每个训练步骤中，我们首先评估查询特征与当前每个原型之间的相似度得分：

设由上一步更新的权重给出的分类器的分类概率为。那么本步的矫正标签就是通过将原型分数和分类概率进行结合生成的。

在这里，我们计算一个软伪标签，并根据阈值T将其转换为一个硬伪标签。如果中最高得分大于T，则对应的类别将被选为，否则将保留原始的原始标签。

Prototype Based Contrastive Learning

新的矫正标签可以用于监督分类的交叉熵损失，如(1)所述。此外，它还有助于训练原型。具体而言，我们提出了基于原型的对比损失，以约束每个样本的特征应更接近它所属的原型。我们将该损失表述为：

其中是从得出的查询特征，τ是表示温度的超参数。所有原型都被维护为字典，按照动量机制进行步骤更新，如下所示：

Label-Guided Contrastive Learning

个体级别的对比学习在自监督学习中被证明非常有效[4、5、7、17、19]。它通过鼓励同一实例中的特征之间的相似性来学习个体级别的特征区分，同时促进不同实例的特征之间的不相似性。个体级别的对比损失如下所示：

其中是当前实例i的查询特征。是从动量编码器生成的正向关键特征。它被标记为正向，因为它与共享同一个实例。相反，是存储在队列中的其余特征，代表负样本。队列的大小为M。在每个训练步骤结束时，队列会通过将新的关键特征排队入队和弹出最旧的关键特征来进行更新。这种个体级别的对比学习远非完美，因为它忽略了不同实例之间的关系。例如，即使两个实例描绘同一个人，它们的特征之间的差距仍然会加强。相反，我们提出了一个标签引导的对比学习模块，利用矫正标签来确保更合理的对比对的分组。我们重新设计了队列，除了存储关键特征外，还记录它的矫正标签。由表示，我们的新队列在更新时不仅接受关键特征，还接受其矫正标签。这些新记录的标签有助于更好地区分正负对。让是新的正特征集合，是新的负特征集合：中的特征与当前实例i具有相同的矫正标签，而中的特征则没有。我们的标签引导对比损失可以表示为：

其中

其中和是当前实例i的关键特征和矫正标签。最后，我们结合上述所有组件，使用以下损失在LUPerson-NL上预训练模型：

训练时设定

参考文章

2203.16533.pdf (arxiv.org)