type
status
date
slug
summary
tags
category
icon
password
🤔 Method

EHN检测方案
之前的工作[27]表明,CNN往往会首先记忆简单的样本,然后网络可以逐渐学习所有剩余的样本,甚至包括噪声样本,这是由于高表示能力。然而,过度拟合噪声会导致泛化性能差。为避免记忆噪声数据,工作[33]选择具有小损失的样本来训练模型,这些样本被视为干净样本。小损失的样本意味着模型输出的预测概率更接近监督标签。然而,标准化概率比损失值更容易分析。不同于工作[33],我们在EHN检测方案中应用了样本训练历史的平均预测概率值。图2显示了干净和噪声样本的平均预测概率直方图。图中显示,大多数干净样本的平均预测概率比噪声样本高。因此,我们可以设置阈值(例如图2中的红色虚线)来初步提取一些干净样本,将这些大于阈值的干净样本称为易样本。然而,仍有部分干净样本落在阈值后面,我们无法将其与噪声区分开来。我们将这部分干净数据定义为难样本。据我们所知,这是第一个使用平均预测概率来进行EHN检测的工作。

目前不存在能够区分难样本和噪声样本的现有方案。 我们基于训练样本的预测历史构建了我们的EHN检测方案,如图3所示。对于具有N个样本的训练集D,我们通过将CNN分类模型训练k个epoch逐渐获得相应的N个预测概率映射。我们的EHN检测方案首先根据阈值T选择易样本。为了方便起见,本文将阈值T实现为选择易样本比例。较高的对应较低的阈值T,反之亦然。然后,我们通过在中交换一些样本的标签来为添加噪声,并记录样本是否为噪声的信息R。添加噪声的噪声比率与原始数据集相同,可以通过[20]的噪声交叉验证算法进行估计。之后,我们使用训练相同的分类模型,并再次记录训练历史。然后,我们根据平均预测概率去除的“易样本”,并将其余样本作为多层感知机(MLP)分类器的训练数据。到目前为止,我们将获得一个以训练历史的预测概率图为输入,输出其是否为难样本或噪声样本的MLP分类器。最后,我们将D \ De中的样本放入MLP分类器中,获得难样本集合和噪声样本集合。算法1显示了EHN检测方案的详细信息。


标签校正模型
我们的校正模型是通过使用EHN检测方案中的进行训练的。训练后,该模型具有一定的校正噪声标签的能力。因此,样本的标签被替换为从校正模型生成的伪标签,其中伪标签是模型输出中最高概率对应的类别标签。我们之所以将难样本也放入校正模型中,是因为我们不能完全信任EHN检测方案中MLP分类器的结果。上述步骤被称为自学习流程;它将原始数据集输入到分类模型中,通过使用算法1的EHN检测方案。然后,它训练校正模型,并使用伪标签更新一些样本的标签。最后,它迭代上述步骤,以进一步净化我们的数据集。
后处理组件
我们的后处理组件是丢弃经过EHN和标签校正处理后仍然无法纠正的噪声样本。在中,我们删除那些校正模型未更改标签的样本。在中,我们删除那些校正模型更改了标签的样本。算法2显示了后处理组件的详细信息。经过后处理后,我们获得了几乎干净的数据集。

📝Noise Suppressing and Hard Enhancing (NSHE)
在这里,我们使用几乎干净的数据集开发了我们的强大的NSHE算法。NHSE阶段的概述如图4所示。实验发现,不同样本可能具有完全相反的模型参数优化方向,这会导致在训练过程中频繁摆动模型参数,从而导致效果不佳。这种现象在嘈杂的数据集中更为严重,而嘈杂的样本会误导模型的训练。受MoCo [36]的启发,我们使用相同的主干和参数初始化了两个模型M1和M2。形式上,将的参数表示为,将的参数表示为,我们通过以下方式更新:
这里, 是一个动量系数。只有参数 通过反向传播而被更新。公式(1)中动量更新使得 的变化更加平滑。由于几乎干净的数据集仍然存在一些嘈杂的样本,所以我们根据每个时期标签类别预测概率对样本进行排名,并设置一个非常小的比例使得预测概率较小的样本无法参与反向传播。为了避免确认偏见,我们提出了基于合作教学的共同学习架构[19]。概率是由 计算的,即样本选择信息是由 给出的。为了进一步强调困难样本的重要性,我们使用了focal loss[37] 来加强困难样本。损失函数定义如下:
其中是正确类别的预测概率,是一个超参数。算法 3 显示了训练流程。


- 作者:VON
- 链接:https://baisihan.asia/article/51ee3a9b-0b37-4ec1-8f69-b85dcb25e261
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。