Robust Federated Learning with Noisy Labels

type

status

date

slug

summary

🤔 摘要

联邦学习是一种范式，它使本地设备能够在保持数据分散和私密的同时联合训练服务器模型。在联邦学习中，由于本地数据是由客户端收集的，几乎无法保证数据被正确标注。尽管已经进行了大量研究以在集中式环境中训练对这些嘈杂数据具有鲁棒性的网络，但这些算法在联邦学习中仍然受到嘈杂标签的困扰。与集中式设置相比，由于客户端标记系统或用户背景知识的差异，客户端的数据可能具有不同的噪声分布。因此，本地模型形成不一致的决策边界，并且它们的权重严重发散，这是联邦学习中的严重问题。为了解决这些问题，我们引入了一种新颖的联邦学习方案，即服务器与本地模型合作通过交换类别中心来维持一致的决策边界。这些中心是每个设备上本地数据的中心特征，由服务器在每一轮通信中对齐。使用对齐的中心更新本地模型有助于在本地模型之间形成一致的决策边界，尽管客户端数据的噪声分布彼此不同。为了提高本地模型的性能，我们引入了一种新颖的方法来选择用于根据给定标签更新模型的自信样本。此外，我们提出了一种全局引导的伪标记方法，通过利用全局模型来更新不自信样本的标签。我们在嘈杂的 CIFAR-10 数据集和 Clothing1M 数据集上的实验结果表明，我们的方法在具有噪声标签的联邦学习中非常有效。

📝介绍

现代边缘设备如智能手机已经能够访问大量数据，这些数据适合用于训练深度学习模型。由于每个客户端设备应将其本地数据传输到中央服务器进行传统的集中式学习，这可能导致严重的数据隐私问题。为了解决这些问题，联邦学习已经被积极研究，以将学习环境从中央服务器转移到每个边缘设备。具体而言，联邦学习允许服务器模型在每个客户端的私有数据上进行训练，而无需将原始数据传输到服务器。联邦学习范式包括两个阶段： 1）在每一轮的开始，服务器将服务器模型广播给选定的客户端，这些客户端在自己的数据上进行多次迭代训练模型。 2）客户端训练完模型后，服务器聚合客户端的模型参数。以上过程迭代进行，直到全局模型收敛。在 FedAvg（McMahan等人，2017）中，客户端的模型参数按元素逐个聚合，并且聚合系数与本地数据集大小成比例。通过 FedAvg，全局模型有效地收敛，特别是当本地数据集遵循独立同分布的情况下。已经进行了许多研究，将其应用于实际应用，例如处理非独立同分布数据（Li等人，2018；Zhao等人，2018；Shoham等人，2019；Wang等人，2020；Li等人，2020b）、嘈杂通信（Ang等人，2020）、领域自适应（Peng等人，2020）、公平资源分配（Li等人，2020a）以及持续学习（Yoon等人，2020）。

尽管上述研究试图解决与保护隐私相关的实际应用问题，但在使用本地设备训练神经网络时仍然存在一些问题。在实践中，由于隐私问题，所有本地数据都应该通过替代标注技术进行标注，例如利用机器生成的标签（Kuznetsova等人，2018）。除非所有客户端的标注技术准确，否则这些标签不可避免地会受到破坏。类似地，在集中式设置中，由于其在实际情况中的适用性，对具有噪声标签的鲁棒学习引起了关注，并且已经提出了各种算法，以在噪声存在的情况下准确训练模型。最近的算法尝试通过抽样可靠数据（Han等人，2018；Wei等人，2020；Huang等人，2019；Guo等人，2018）、更新标签（Tanaka等人，2018；Yi和Wu，2019）或从匹配的原型中估算标签（Han，Luo和Wang，2019；Lee等人，2018）来最小化噪声标签的影响。这些方法已成功地发展为成功使用噪声标签训练模型。

上述处理噪声标签的方法在联邦设置中存在性能下降的问题，如图1所示。与集中式学习不同，由于客户端数据中的噪声分布可能由于其标记系统或背景知识的差异而不同。因此，本地模型形成不一致的决策边界，它们的权重严重发散，即权重发散。这导致了本地模型的聚合困难，这是联邦学习中的一个严重问题（Li等人，2018；Chen，Bhardwaj和Marculescu，2020；Lim等人，2020）。

因此，在具有噪声标签的联邦学习中，应考虑客户端中不同的噪声分布，并保持客户端模型的学习方向相似。为了解决这些困难，我们引入了一种新的联邦学习方案，即服务器与本地模型合作，通过交换类别中心来维持一致的决策边界，如图2所述。具体而言，我们在每个设备上存储本地类别中心，这些中心是本地数据的中心特征，并在每一轮上传到服务器。服务器将它们聚合成全局中心，并将这些中心广播给客户端。这些中心用于更新本地模型，以保持与其他客户端一致的决策边界，尽管客户端数据中的噪声分布彼此不同。

图2：（a）显示了具有噪声标签的联邦设置的示意图，其中每个客户端具有具有不同噪声比率的数据集。我们提出的方法允许服务器和客户端交换类别中心。（b）在没有对本地模型施加任何限制的情况下，由于客户端模型在个体噪声数据集上进行了大量本地周期的训练，客户端的决策边界可能彼此显着不同。聚合这些本地模型可能导致服务器模型具有不正确的边界。我们利用类别中心实现本地决策边界与其他边界相似。

在本地更新中，我们根据相对损失较小的样本计算本地中心，以减少噪声数据的影响，这受到（Han等人，2018）的启发。我们根据与全局中心的相似度调整这些中心，以防止它们被噪声数据的表示所破坏。基于这些中心，我们选择自信样本，以防止模型拟合噪声标签。我们还利用全局模型对不自信样本进行标签纠正，从而减轻每个本地模型对噪声样本的过拟合。

据我们所知，这是第一个处理噪声标签的联邦学习算法。我们提出了一个新的联邦学习方案，交换称为中心的额外信息，并提出了减少噪声数据影响的新算法。我们的方法在联邦设置中保持了高性能，适用于各种噪声比例（见图1）。

图1：在集中式设置（实线）和联邦式设置（虚线）中，在CIFAR-10数据集上的测试准确率在各种噪声比率下的表现。对于具有噪声标签的联邦学习，我们以独立同分布的方式将噪声数据分发给客户端。联合教学（Han等人，2018）和联合优化（Tanaka等人，2018）是集中式设置的新方法，但这些算法与FedAvg（McMahan等人，2017）结合在一起，在联邦设置中性能下降。最佳观看颜色。

🤗 Robust federated learning with noisy labels

在本节中，我们从问题定义开始，然后描述我们提出的本地更新和全局更新方法。

问题定义

在具有多个客户端和全局服务器的联邦设置中，第k个客户端的本地训练数据由图像和相应的标签组成，表示为，而服务器无法访问任何训练数据。在嘈杂的联邦学习场景中，本地数据集不可避免地包含噪声样本，其中一些给定标签不准确，并且客户端数据中的噪声分布彼此不同。模型可能会对噪声数据过拟合，并且由此导致权重发散，进而在联邦学习中出现聚合困难（Zhao等人，2018；Lim等人，2020）。

为了解决上述问题，我们引入了全局和本地类别中心，它们分别是服务器和客户端中每个类别的中心特征。本地中心是每个本地数据集中的全局平均池化层的平均特征向量，而全局中心则是通过反映所选客户端的本地中心计算得出的，下一节将详细描述这些。我们将第k个客户端对应于类别c的全局中心和本地中心表示为和。此外，和表示地面真实标签的独热向量和由softmax层提取的伪标签。

局部更新

在每一轮开始时，选定的客户端从服务器接收全局模型参数和全局类别中心以进行本地更新。

在进行本地更新之前，选定的客户端下载全局模型参数，并利用以下损失函数对其自己的本地数据集进行训练：

其中，和分别表示第k个客户端的特征提取器和分类器，是交叉熵损失函数。第k个客户端的二进制掩码向量控制其是否学习地面真实标签还是伪标签。我们提出了一种新颖的采样方法来选择用于更新掩码的自信样本。此外，我们引入了一种全局引导的伪标记方法，利用了联邦设置的优势。我们不采用简单的伪标记方法（Tanaka等人，2018），而是利用全局模型和来获得。这种方法在提高本地模型性能的同时，防止模型过度拟合噪声数据。

同时，每个客户端从服务器加载全局中心，并更新其模型以具有与全局中心类似的特征。为了实现这一点，我们根据与全局中心的相似度在每个本地模型上计算本地中心，并明确约束本地特征以映射本地中心。需要注意的是，服务器和所有客户端都在自己的设备上存储中心，并在每一轮通信中传输它们。对于类别中心，需要额外的通信负担，但其数量要比模型参数小得多（在我们的实验中约为0.01%至0.03%）。

局部中心

我们使用从中提取的特征向量来计算本地类别中心。如果我们使用具有给定标签的所有本地样本来计算，则噪声标签会对中心的正确构建产生负面影响。因此，我们引入基于损失的本地中心，这受到（Han等人，2018；Arpit等人，2017）的启发。我们只使用相对较小损失的样本的特征来创建准确的特征中心。首先，我们通过在每个客户端上选择R(t)百分比的小损失实例来完善数据集，如下所示：

其中，是优化变量，|·|表示集合的基数，即样本数量，R(t)控制每一轮应选择多少个小损失样本。然后，第k个本地模型根据小损失样本计算每个类别的简单平均特征，如下所示：

然而，这些平均特征可能与其他客户端不同。为了避免这些不良偏差，我们根据全局中心与平均特征之间的相似性，通过加权平均来推导本地中心，如下所示：

其中，sim(·; ·)可以是任何相似性函数，但我们选择余弦相似度进行实验。由公式3计算，全局中心从服务器传输，反映了所有客户端的中心，这将在下一节中描述。

我们期望类别中心是干净样本的中心特征。在训练开始时，深度网络倾向于首先学习简单的模式（Arpit等人，2017），我们利用这一特性来形成对噪声样本不太敏感的全局中心。之后，我们更新本地中心以反映与这些全局中心的相似性。这种基于相似性的更新可以在大量训练轮次后保持中心不受噪声数据的破坏。

我们利用这些本地中心来减少客户端模型的权重发散。具体而言，我们设计了一个损失函数，将自信样本的特征映射到相应类别的中心上，如下所示：

其中，表示第k个客户端的二进制掩码，对于自信样本返回1，否则返回0。

置信样本

我们引入了一种采样方法，以选择自信样本来训练每个客户端的模型，而不受噪声标签的不利影响。为此，我们引入了基于特征相似性的标签，如下所示：

需要注意的是，我们不应完全信任给定的标签，因为它们可能没有准确地注释。此外，它们不应该依赖于基于特征相似性的标签，从而为难样本引入错误的标签。基于特征相似性的标签和地面真实标签的互补使用可以帮助找到准确的自信样本。因此，我们同时考虑具有本地中心的基于相似性的标签和地面真实标签。通过同时采用地面真实标签和基于相似性的标签，获得用于屏蔽自信样本的如下所示：

我们利用这个掩码来减少噪声样本的影响。由于每个类别的自信样本数量并不固定，因此这个掩码可以很好地选择自信样本，无论每个类别的噪声比率如何。

全局伪标签

为了充分利用本地数据信息，我们利用了众所周知的标签校正方法（Tanaka等人，2018）。虽然这种带有伪标记的自学习策略在集中式设置中对标签校正非常有效，但它会导致本地模型产生自偏倚（Arazo等人，2019）。因此，我们提出了全局引导的伪标记，通过使用服务器模型校正本地数据的标签。我们的标签估计技术可以防止本地模型产生自偏倚。每个客户端在广播时间接收全局模型，并使用模型生成全局引导的伪标签，如下所示：

其中，和分别是具有全局参数的客户端网络。然后，每个客户端使用这些全局引导的伪标签通过公式1来训练其网络。

最后，第k个本地模型被训练以最小化三种损失的总和：

其中，是预测结果的熵正则化项。请注意，此项将每个softmax输出的概率分布限制为单个类别。表示softmax输出，而损失Le由计算。和表示权衡参数。我们完整的算法如图3所示。

图3：我们提出的本地更新算法。在广播时间，服务器权重和全局类别中心被传输到每个客户端。客户端利用服务器参数（和）进行全局引导的伪标记，并将本地特征表示与全局中心进行约束。

全局更新

在每一轮的本地更新之后，客户端将模型参数和本地中心上传到服务器。我们利用FedAvg（McMahan等人，2017）进行权重聚合，这是一个在独立同分布数据上非常有效的算法。对于中心聚合，服务器通过对上传的本地中心进行基于相似性的聚合来更新全局中心。这使得服务器模型能够显式处理客户端中不同的噪声比率。此外，由于它对本地中心进行了类别-wise的求和，因此受到不同类别中不同噪声比率的影响较小。

权重聚合

我们执行FedAvg（McMahan等人，2017）进行权重聚合，这适用于独立同分布的数据集。由于在独立同分布的数据中只添加了噪声标签，我们期望FedAvg算法在我们的实验设置中能够很好地工作。FedAvg将本地参数L的加权平均计算如下：

其中，G是全局参数，n表示总数据量，表示第k个客户端的数据量。

全局中心聚合

为了明确解决客户端中不同的噪声分布，我们调整全局中心以利用对本地中心的相似性进行求和。在每一轮中，所选客户端的本地中心通过使用与服务器中先前全局中心的相似性来更新全局中心。设K为当前轮次中选定的客户端的索引集合，那么全局中心将按以下方式更新：

其中，表示存储的全局中心与上传的第k个客户端类别c的中心之间的相似度，其计算方法为：

因此，这个权重更新规则允许全局中心反映出与本地中心的相似性，这取决于客户端和类别。完整的伪代码显示在附加材料中。

参考文章

致谢：

💡

有关Notion安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~