type
status
date
slug
summary
tags
category
icon
password
🤔 摘要
从正样本和未标记数据中学习在文献中被称为正样本-未标记(PU)学习,近年来受到了广泛关注。在PU学习中,一种常见的方法是从未标记数据中通过使用临时阈值采样一组伪负样本,以便可以使用常规的监督方法处理正样本和负样本。由于未标记数据中的标签不确定性,不可避免地会出现将未标记的正样本误分类为负样本的错误,并且这些错误可能在训练过程中积累。这些错误通常会导致性能下降和模型不稳定。为了减轻标签不确定性的影响并提高正样本和未标记数据学习的鲁棒性,我们提出了一种新的鲁棒PU学习方法,其训练策略受到人类学习本质的启发:应首先学习简单的案例。类似的直觉已在课程学习中得到应用,在训练的早期阶段仅使用较简单的案例,然后引入更复杂的案例。具体而言,我们利用一种新颖的“难度”度量来区分高概率为负样本的未标记样本和标签噪声较大的未标记样本。然后实施迭代训练策略,在训练过程中迭代地微调负样本的选择,以便在训练的早期阶段包含更多的“简单”样本。广泛的实验验证表明,这种方法可以有效地提高正样本和未标记数据学习的准确性和稳定性。
📝主旨内容
传统的监督二分类问题通常假设所有训练样本都被明确标记为正样本(P)数据和负样本(N)数据。然而,在许多实际应用中,例如图像分类和与疾病相关的基因或基因组合的优先级排序,正确标记所有正样本可能成本高昂或不切实际。因此,通常情况下,只有相对较少的正样本被可靠地标记并可用于训练,同时还存在大量未标记(U)数据。使用这种数据进行学习被称为正样本-未标记(PU)学习,近年来引起了广泛关注。
尽管PU学习问题可以通过将所有未标记样本视为负样本来使用传统的监督学习方法解决,但未标记样本中正样本的污染会引入显著的偏差【2】。为了解决这个问题,现有的PU学习方法通常采用以下两种策略之一:(1)样本选择策略,在这种策略中,从未标记数据中识别负样本用于训练。通常,训练后的分类模型用于生成和更新负标签,并在每个训练步骤中基于临时阈值递归进行。然而,在训练初期,训练不充分的分类模型很容易误分类未标记样本,特别是当正样本的先验(未标记数据中正样本的比例)相对较高时。这种误分类错误可能累积并导致学习过程中的持续偏差和不稳定性【29】;(2)去偏策略,在这种策略中,开发了新的分类风险以支持正样本和未标记数据的无偏学习。尽管这种策略避免了对未标记数据进行标签标注的问题,但需要了解正样本的先验以构建无偏风险,而在实践中这可能很难准确估计。
尽管有这些发展,最近的研究【30】表明,许多现有的PU学习方法仍然容易受到未标记数据中噪声的影响,并且往往会过拟合噪声负样本。在本文中,我们提出了一种新的训练策略,以缓解这一问题。这一策略受到人类学习本质的启发:通常在接触更难的知识之前先学习更容易的知识。这种“由易到难”的策略已经成为课程学习中最流行的方法之一,在课程学习中,只有较容易的概念(即在简单场景中识别清晰可见的物体)在学习的早期阶段用于训练模型,而更复杂的案例如遮挡的混乱图像则在后期引入。事实证明,这种“由易到难”的策略可以帮助在有噪声的数据场景中学习更鲁棒的模型。
具体而言,我们的新训练策略采用了一种迭代方法,在整个训练过程中微调负样本的选择。在训练的早期阶段,只选择“容易”的样本,即那些很有可能为负样本的未标记样本,用于训练分类模型。随着训练的进行,以逐渐的方式引入更多的样本,包括具有更高标签噪声的“困难”样本。为了支持这一策略,我们开发了一种基于分类损失的新颖难度测量方法来量化未标记样本中的噪声程度。此外,我们实现了一个训练调度器来监督样本选择过程。该调度器在每次迭代中使用基于动态权重的阈值从未标记数据中选择负样本。随着迭代次数的增加,这一阈值将逐步放宽,以确保在训练的后期阶段包含更多的样本。我们的实验表明,这一策略可以可靠地提高训练模型在广泛的PU学习任务中的鲁棒性和泛化能力。
总结来说,我们做出了以下贡献:
- 我们证明了基于“由易到难”原则的精心设计的训练策略可以显著改进PU学习方法,并提出了在这一方向上的新研究机会。
- 我们提出了一种新的难度测量方法,用于衡量PU数据的“难度”,并探索了一套用于PU学习的训练调度器。
- 我们提出了一种名为Robust-PU的新训练策略,基于“难度”测量和训练调度器。通过在训练过程中动态增加预期的选定干净负样本的数量,这一策略有效减少了噪声负样本的影响,并显著提高了训练模型在PU学习任务中的泛化和鲁棒能力。
- 我们在广泛的PU学习任务上进行了大量实验验证,证明了所提方法的有效性。
🤗总结归纳
参考文章
致谢:
有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
- 作者:VON
- 链接:https://baisihan.asia/article/b109d49a-6919-40c3-8f3b-59f916888b23
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。