type
status
date
slug
summary
tags
category
icon
password
🤔 Method
在本节中,我们介绍了一种称为MentorMix的简单方法,可以克服人工合成和网络标签噪声。正如其名称所示,我们的想法受到了MentorNet(Jiang等人,2018年)和Mixup(Zhang等人,2018年)的启发。主要思路是使用课程学习和近侧风险最小化设计一个新的鲁棒损失函数来克服噪声标签。
📝Background on MentorNet and Mixup
考虑一个分类问题,训练集,其中表示第i个训练图像,是一个基于m个可能类的整数值标签,是相应的one-hot标签。请注意,在训练中不允许使用干净标签。让表示DNN的预测,由参数化。MentorNet(Jiang等人,2018)将目标函数最小化:
其中 ,或简写为,是通过softmax函数得到的交叉熵损失。θ是模型参数的范数的权重衰减参数。为了方便起见,我们将权重衰减正则化、数据增强和dropout都包含在中。
公式(1)引入了隐式权重变量 用于每个训练样本。规则项 G 确定了课程(Jiang等人,2015;2014;Fan等人,2017)或等效的权重计算方案来计算每个样本的隐式权重 。在 (Jiang等人,2018) 的研究中,该权重计算方案是通过一个名为MentorNet的神经网络计算的。在训练期间,w 和 v 交替地在mini-batch中被最小化,一次只优化一个,而另一个被固定。测试时只使用 w。
🤗MentorMix
在提出的MentorMix中,我们使用课程学习来最小化经验vicinal风险。为简单起见,我们使用自步的规则器(Kumar等人,2010;Jiang等人,2015),因此我们有:
其中,γ是一个超参数。当网络参数w被固定时,很容易推导出最优的权值计算方案:
虽然公式(6)给出了计算最优权重的闭式解,但它很难计算,因为这需要枚举所有的训练样例。因此,我们采用重要性采样来找到“重要”的样例。为此,我们为每个定义一个分层,并从以下分布中抽取一个样例:
其中,t是softmax函数中的温度,我们的实验中将其固定为1。指定了单个训练样例的密度函数。理论上,该分布是针对所有训练样例定义的,但在实践中,为了实现小批量训练,在每个mini-batch内计算分布(请参见算法1)。是的最优权重。是从Eq.(1)中的计算的,并可通过MentorNet方便地获得。由于根据Eq.(6),最优只能具有二值,因此在重要性采样下,我们将Eq.(5)中的部分目标重写为:
其中,常数γ将在训练过程中被删除。根据Eq.(6),我们的目标是找到较小损失的混合样本。对于给定的样例,当较小时,混合样本的损失倾向于更小。受此思想的启发,我们从中采样,并相对于其损失单调递减的权重进行选择。这样,较低损失的样例更可能被选择进行混合。
- 作者:VON
- 链接:https://baisihan.asia/article/532c1ad1-d2f2-4a2d-979f-cf07e7716f49
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。