type
status
date
slug
summary
tags
category
icon
password
🤔 摘要
在真实世界的大规模数据集中经常观察到标签噪声的存在。这种噪声由于各种原因引入,呈异质性并且依赖于特征。目前处理噪声标签的现有方法主要分为两类:一是假设存在理想的特征独立噪声,二是依靠启发式方法,没有理论保证。在本文中,我们提出针对一类新的特征依赖标签噪声,该类噪声比常用的独立同分布标签噪声更为普遍,包含了广泛的噪声模式。针对这一普遍噪声类别,我们提出了一种渐进式标签校正算法,通过迭代校正标签并改进模型。我们提供理论保证,证明对于各种(未知)噪声模式,使用该策略训练的分类器将收敛为与贝叶斯分类器一致。在实验中,我们的方法优于现有基准方法,并且对各种噪声类型和水平具有鲁棒性。
📝1 引言
在监督学习中,解决训练集标签中的噪声问题是一个重要问题。由于数据/类别的内在模糊性和人工/自动注释者的错误(Yan et al., 2014; Andreas et al., 2017),大规模数据收集中不可避免地出现了数据注释的错误。因此,在实际应用中,开发对标签噪声具有弹性的方法至关重要。传统方法对标签噪声采用了相当简单的独立同分布假设,即标签污染是独立同分布的,因此与特征无关。基于这种假设的方法要么明确地估计噪声模式(Reed et al., 2014; Patrini et al., 2017; Dan et al., 2019; Xu et al., 2019),要么引入额外的正则化器/损失项(Natarajan et al., 2013; Van Rooyen et al., 2015; Xiao et al., 2015; Zhang & Sabuncu, 2018; Ma et al., 2018; Arazo et al., 2019; Shen & Sanghavi, 2019)。一些结果证明,常用的损失函数本身对这种独立同分布标签噪声具有天然的鲁棒性(Manwani & Sastry, 2013; Ghosh et al., 2015; Gao et al., 2016; Ghosh et al., 2017; Charoenphakdee et al., 2019; Hu et al., 2020)。
尽管这些方法具有理论保证,但在实践中它们的表现通常不如预期,原因是对噪声的不现实的独立同分布假设。这很可能是因为标签噪声是异质的且与特征有关。一个外观存在本质上的模糊性的猫更有可能被误标为狗。光线不好或遮挡严重的图像可能会被错误标记,因为重要的视觉线索是难以察觉的。非常需要能够应对更一般形式的标签噪声的方法来应对现实世界中的挑战。为了适应异质的标签噪声,最先进的方法通常采用数据校准策略。它们渐进地确定可信数据或校正数据标签,然后使用这些数据进行训练(Tanaka et al., 2018; Wang et al., 2018; Lu et al., 2018; Li et al., 2019)。随着收集到越来越多的干净数据或校正的标签,模型逐渐改进,最终收敛到高精度的模型。这些数据校准方法充分利用了深度神经网络的学习能力,在实践中取得了优越的性能。然而,它们的基本机制仍然是一个谜。这个分类中的任何方法都无法提供理论上为什么模型能够收敛到理想模型的深入见解。
在本文中,我们提出了一种新颖而有原则的方法,专门针对异质的、特征相关的标签噪声。与之前的方法不同,我们针对一类更一般的噪声,称为多项式边际递减(PMD)标签噪声。在这个噪声类别中,我们允许任意的噪声水平,除了远离真实决策边界的数据。这符合真实世界的情况;接近决策边界的数据更难区分,更容易被错误标记。同时,远离决策边界的数据是其真实类别的典型示例,并且应该具有合理有限的噪声水平。
在假设这个新的PMD噪声家族的基础上,我们提出了一种在噪声分类器的置信度基础上逐渐修正标签的理论保证的数据校准算法。我们从具有高置信度的数据点开始,并使用噪声分类器的预测结果来纠正这些数据的标签。接下来,使用修正后的标签改进模型。我们继续交替进行标签修正和模型改进,直到收敛。见图1进行说明。我们的主要定理表明,通过每次迭代都使用基于理论的标签修正准则,标签纯度的改进是有保证的。因此,模型在迭代过程中以足够的速率改进,并最终与贝叶斯最优分类器一致。除了理论上的优势,我们还展示了我们的方法在实践中的实力。我们的方法在具有各种合成噪声模式的CIFAR-10/100上优于其他方法。我们还在三个具有未知噪声模式的实际数据集上评估了我们的方法。
据我们所知,我们的方法是第一个在理论上有收敛到理想模型保证的数据校准方法。PMD噪声家族包含了广泛的异质和特征相关噪声,更好地逼近了真实世界的情况。它还为标签噪声的研究提供了一个新颖的理论框架。

相关工作
我们回顾了不假设独立同分布标签噪声的工作。Menon等人(2018)推广了Ghosh等人(2015)的工作,并提供了一个优雅的理论框架,展示了满足特定条件的损失函数自然抵抗实例相关噪声。该方法在对干净后验概率η有更加强的假设的情况下,可以实现更好的理论性质(即贝叶斯一致性)。在实践中,这种方法尚未推广到深度神经网络。Cheng等人(2020)提出了一种针对实例相关标签噪声的主动学习方法。
另外一种现代方法(Chen等人,2021)表明,在现实世界的数据集中,噪声不太可能是独立同分布的,并提出通过整个训练过程中每个实例上的网络预测平均来修复有噪声的标签。虽然这种方法有效,但缺乏理论保证。Chen等人(2019)通过调节分类器决策边界的拓扑结构,展示了可以提高对标签噪声的模型鲁棒性。
数据校准方法使用有噪声网络的预测来迭代地选择/修正数据并改进模型。Tanaka等人(2018)引入了一个联合训练框架,该框架在训练过程中同时强制网络与自身的预测一致,并纠正有噪声的标签。Wang等人(2018)基于标签与周围数据的一致性将有噪声的标签识别为异常值。Lu等人(2018)使用课程学习策略,其中教师网络在一个小的干净数据集上进行训练,以确定一个数据是否干净;然后将学到的课程权重输入到学生网络中进行训练和推断。(Yu等人,2019年; Bo等人,2018年) 训练了两个同步的网络;两个网络的置信度和一致性用来识别干净数据。Wu等人(2020年)通过研究在学习特征空间中训练数据的拓扑结构来选择干净数据。为了完整起见,我们还参考了其他设计相似的方法(Li等人,2017年; Vahdat,2017年; Andreas等人,2017年; Ma等人,2018年; Thulasidasan等人,2019年; Arazo等人,2019年; Shu等人,2019年; Yi和Wu,2019年)。
至于理论保证,Ren等人(2018年)提出了一个通过解决优化问题来迭代地对每个数据点重新加权的算法。他们证明了训练的收敛性,但没有保证模型收敛到理想模型。Amid等人(2019b)推广了(Amid等人,2019a)的工作并提出了一个温和匹配损失。他们表明,当最后的softmax层被双温度损失替换时,得到的分类器将是贝叶斯一致的。Zheng等人(2020年)证明了他们的数据校准方法的一次性保证;但模型的收敛性没有得到保证。我们的方法是第一个保证收敛到良好的分类器的数据校准方法。
2 方法
我们首先介绍了Poly-Margin Diminishing(PMD)标签噪声族。在第2.2节中,我们提出了主要算法。最后,在第3节中证明了我们算法的正确性。
符号和预备知识 虽然噪声设置和算法自然地推广到多类,但为了简单起见,我们专注于二元分类,特征空间为。我们假设数据是从上的分布中采样得到的。定义后验概率。设 和 为噪声函数,其中表示被损坏的标签。例如,如果一个数据的真实标签,它有的机会被误转为1。类似地,它有的机会从1变为0.设为给定特征x的的噪声后验概率。设为(干净的)贝叶斯最优分类器,其中为真时等于1,否则等于0。最后,设为分类器的得分函数(本文中神经网络的softmax输出)。
2.1 多项式边际减小噪声
我们首先介绍了本文将要处理的噪声函数τ的族。我们引入了多项式边界减弱噪声(PMD噪声)的概念,它只在的某个级别集合上界限噪声τ,因此允许τ在受限域外任意增高。这个表述不仅覆盖了独立于特征的情况,而且还推广了由(Du和Cai,2015年; Menon等人,2018年; Cheng等人,2020年)提出的情景。
定义1(PMD噪声)如果存在常数和,使得以下条件成立,则一对噪声函数和是多项式边界减弱(PMD)的:
对于所有,有;对于所有,有。
我们滥用符号,将t0称为τ的“边界”。注意,PMD条件只要求τ的上界在贝叶斯分类器较为自信的区域是多项式且单调递减的。对于区域,我们允许和都是任意的。图2(d)显示了上界(橙色曲线)和一个样本噪声函数(蓝色曲线)。我们还展示了根据这个噪声函数产生的损坏的数据(黑点是干净数据,而红点是标签损坏的数据)。
PMD噪声族比现有的噪声假设要广泛得多。例如,边界一致噪声(BCN)(Du和Cai,2015年; Menon等人,2018年)假设一个噪声函数,随着数据远离决策边界而单调下降。参见图2(c)的示例。这种噪声相对于我们的PMD噪声来说更为限制性,(1)只要求一个单调上界,以及(2)在决策边界附近的宽缓冲区内允许任意强度噪声。图2(b)展示了传统的独立于特征的噪声模式(Reed et al., 2014; Patrini et al., 2017),它假设(或)是与x无关的常数。

2.2 渐进校正算法
我们的算法是通过迭代训练神经网络和纠正标签来实现的。我们从热身期开始,其中我们使用原始的带噪声数据训练神经网络(NN)。这样可以在它开始拟合噪声之前获得一个合理的网络(Zhang et al., 2017)。热身期之后,分类器可以用于标签纠正。我们只纠正那些分类器f非常自信的标签。这个想法是,在噪声假设下,存在一个“纯净区域”,在这个区域内噪声分类器f的预测非常自信,并且与清洁的贝叶斯最优分类器保持一致。因此,在这个纯净区域内进行标签纠正可以得到纯净的标签。具体来说,我们选择一个高阈值θ。如果f预测的标签与不同并且其自信度超过阈值,,我们将标签翻转为f的预测。我们不断纠正标签并改进网络,直到没有标签被纠正。然后,我们稍微降低阈值θ,使用降低后的阈值进行标签纠正,并相应地改进模型。我们继续这个过程直到收敛。为了方便理论分析,在算法中,我们定义一个连续增加的阈值T,令。我们的算法在算法1中概括。我们将我们的算法称为PLC (Progressive Label Correction)。在第3节中,我们将展示这个迭代算法将在大多数输入实例上收敛为与清洁贝叶斯最优分类器一致的结果。
推广到多类别情况。在多类别情况下,用表示分类器对标签的预测概率。设为分类器对应的类别预测,即。我们将损失中的项替换为最高置信度和置信度一之间的差距。如果这两个置信度之间的绝对差大于某个阈值θ,则将修正为。实际上,我们发现使用对数差会更加稳健。

3 分析
我们的分析侧重于渐近情况,并回答以下问题:在有无限多个带有错误标签的数据的情况下,是否可能学习到一个相当好的分类器?我们证明,如果噪声满足可以说是普遍的PMD条件,答案是肯定的。假设机器学习模型的假设类和分布D满足一些温和的条件,我们证明算法1可以得到一个几乎干净的分类器。这将将噪声标签学习的挑战从可实现性问题降低为样本复杂性问题。在这项工作中,我们仅关注渐近情况,并将样本复杂性留待以后的研究。
3.1 假设
我们的第一个假设限制了模型至少能够近似真实贝叶斯分类器。该条件假设在具有足够复杂性的假设类中,分类器在该类中与之间的逼近差值由错误标签和贝叶斯最优分类器之间的不一致性决定。
定义2(Level -consistency)。假设数据采样为,并且。给定,如果满足以下条件,我们称H是一致的:
对于两个输入实例和,其中(因此干净的贝叶斯最优分类器在z上的置信度高于x),指示函数等于1,如果更有信心的点的标签与不一致。该条件表示,在x处的分类器的近似误差应该由在的置信度大于的点上的风险控制。
接下来,我们定义数据分布的正则性条件,描述了级别集密度函数的连续性。
定义3(级别集有界分布)。定义边界,为t的累积分布函数:。令为的密度函数。如果对于所有的,我们称分布D是有界的。如果D是有界的,我们通过来定义D的最坏情况密度失衡比。
上述条件保证了级别集密度函数的连续性。这在分析中非常关键,因为这种连续性允许从邻域区域借用信息,使得干净的邻居可以帮助纠正损坏的标签。为了简化表示,当我们提及ℓ时,我们将省略下标中的D。从现在开始,我们假设:
假设1. 存在常数,使得假设类H是一致的,并且未知分布D是有界的。
3.2 主要结果和证明概要
在本节中,我们首先陈述我们的主要结果,然后介绍支撑性的论述。完整的证明可以在附录中找到。我们的主要结果如下所述,如果我们的初始函数训练正确,即f(x) = ,那么算法1在大多数情况下的输出标签与贝叶斯最优分类器标签匹配。在实践中,最小化真实风险是不可实现的。相反,使用经验风险来估计真实风险,渐近地逼近真实风险。对于一个评分函数,我们将通过来表示预测的标签。
定理1. 在假设1下,对于任意的带有边界的PMD噪声,定义。然后对于算法1的输出,其中如上所述,并且具有以下初始化设置:(1),(2),(3),(4)和(5),我们有:
在本节的剩余部分,我们将假设噪声τ是带有边界t0的PMD噪声。为了证明我们的结果,我们首先定义一个“纯净”级别集。
定义4 (纯净(e,f,η)级别集)。如果对于所有的,,则集合是的纯净级别集。
现在我们陈述一个引理,它构成了我们的渐进纠正算法的基础。我们展示了在模型可靠的一个小区域内,我们可以通过信任模型向前迈出一步。虽然单轮中的改进微小,但它赋予算法1中保守递归步骤的能力。
。假设满足假设1,并假设存在一个纯净级别集,其中。令,当时,否则设,当|f(x) − 1/2| < e时,并假设
.
令那么
上述引理表明,清洗区域的大小至少会增加一个常数因子。在下面的引理中,我们证明了前m个热身轮的功能性。由于初始神经网络可能表现不佳,我们可以信任分类器的区域可能非常有限。在开始在相对较大的等级集中进行翻转过程之前,首先需要将初始的小区域扩展到一个常数。
引理2(热身轮)。假设对于给定的函数f0存在一个级别集,对于是纯粹的。给定,在运行算法1进行轮之后,存在一个级别集,对于是纯粹的。
接下来,我们提出了结合前两个引理的最终引理。
引理3:假设满足假设1,并且对于给定的函数,存在一个对于来说纯粹的级别集合。如果我们以为初始值运行算法1,并且初始设置为:
(1) ,
(2) m ≥
(3) ,
(4) ,
(5) ,
那么我们有。
这个引理说明,如果初始模型拥有一个相当纯粹的超级级别集合,通过以精心选择的参数长时间运行算法1,可以逐步纠正大部分受损标签。算法1的极限将取决于神经网络的逼近能力,该能力由定义2中的参数ε所描述。为了使用引理3证明定理1,只需获得一个具有可靠区域的模型。通过使用一组在PMD噪声数据上的好评分函数进行训练,可以确保这一点。
- 作者:VON
- 链接:https://baisihan.asia/article/87ef16c7-12f6-49d3-863f-e06654ee4878
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。