type
status
date
slug
summary
tags
category
icon
password
🤔 摘要
弱监督隐蔽物体分割(Weakly-Supervised Concealed Object Segmentation,WSCOS)旨在利用稀疏标注的数据训练模型,以分割与周围环境充分融合的物体。这是一项具有挑战性的任务,因为(1)由于内在的相似性,很难将隐蔽物体与背景区分开来,以及(2)稀疏标注的训练数据仅为模型学习提供了弱监督。在本文中,我们提出了一种新的WSCOS方法来应对这两个挑战。为了解决内在相似性的挑战,我们设计了一个多尺度特征分组模块,首先在不同粒度上对特征进行分组,然后聚合这些分组结果。通过将相似特征聚集在一起,该模块鼓励分割结果的连贯性,有助于获得单物体和多物体图像的完整分割结果。针对弱监督的挑战,我们利用最近提出的视觉基础模型“Segment Anything Model (SAM)”,并使用提供的稀疏标注作为提示生成分割掩码,用于训练模型。为减轻低质量分割掩码的影响,我们进一步提出了一系列策略,包括多重增强结果集成、基于熵的像素级加权和基于熵的图像级选择。这些策略有助于提供更可靠的监督来训练分割模型。我们在各种WSCOS任务上验证了我们方法的有效性,实验表明我们的方法在这些任务上达到了最新的性能水平。
📝主旨内容
隐蔽物体分割(Concealed Object Segmentation,COS)旨在分割视觉上与周围环境融为一体的物体【1】。COS是一个广泛应用的术语,涉及不同领域,例如伪装物体检测【2, 3】、息肉图像分割【4, 5】、透明物体检测【6, 7】等。由于前景物体与背景之间的内在相似性,COS是一项具有挑战性的任务,这使得识别出用于准确分离前景和背景的区分性线索极为困难。为应对这一挑战,现有方法采用了模拟人类视觉【8-10】、引入频率信息【11, 12】或在多个任务中采用联合建模【13-18】的方法。
弱监督隐蔽物体分割(Weakly-Supervised COS,WSCOS)研究了一个更具挑战性且更实用的问题,即在不依赖像素级完全标注的训练数据的情况下学习COS模型。WSCOS大大降低了标注成本,仅需要前景或背景中的少量标注点或涂鸦。然而,标注训练数据的稀疏性在模型学习过程中减弱了分割器的有限区分能力,从而进一步限制了分割性能。在本文中,我们提出了一种新的算法来应对这一具有挑战性的WSCOS任务。为了应对前景和背景之间的内在相似性挑战,我们引入了一个多尺度特征分组(Multi-scale Feature Grouping,MFG)模块,该模块首先在不同粒度上提取区分性线索,然后聚合这些线索以处理各种隐蔽场景。通过特征分组,MFG实质上促进了特征之间的一致性,从而通过鼓励个体物体内的局部关联来缓解不完全分割问题,同时通过寻求多个物体之间的全局一致性来促进多物体分割。
为了解决弱监督的挑战,我们提出利用最近提出的视觉基础模型“Segment Anything Model (SAM)”通过使用稀疏标注作为提示生成密集掩码,并使用生成的掩码作为伪标签来训练分割器。然而,由于前景物体与背景之间的内在相似性,SAM生成的伪标签可能并不总是可靠的。我们提出了一系列策略来解决这个问题。首先,我们提出为每张图像生成多个增强视图,并融合所有视图生成的分割掩码。融合的掩码可以突出对图像增强具有抗性的可靠预测,并由于集成效应而趋于更加准确和完整。其次,我们提出一种基于熵的加权机制,对高确定性像素的预测赋予更高权重。最后,为应对SAM未能生成合理正确掩码的极端图像,我们提出一种基于熵的图像级选择技术来评估生成掩码的质量,并决定是否将这些掩码用作模型训练的伪标签。这些策略确保只有高质量的伪标签用于训练分割器。为了便于描述,我们将利用SAM解决这一任务的方法称为WS-SAM。
我们的贡献总结如下:
(1) 我们提出利用SAM进行弱监督分割,使用提供的稀疏标注作为提示生成密集分割掩码并训练任务分割模型。据我们所知,这是首次尝试利用视觉基础模型解决弱监督分割任务。
(2) 我们提出了一系列处理潜在低质量分割掩码的策略,包括多重增强结果集成技术、基于熵的像素级加权技术和基于熵的图像级选择技术。这些技术有助于提供可靠的指导来训练模型,从而改进分割结果。
(3) 我们引入了多尺度特征分组(MFG)技术,以应对WSCOS任务中的内在相似性挑战。MFG通过在不同粒度上进行特征分组来提取区分性线索,鼓励分割的一致性,从而有助于获得单物体和多物体图像的完整分割结果。
(4) 我们在各种WSCOS任务上评估了我们的方法,实验表明我们的方法达到了最新的性能水平。
🤗方法
弱监督隐蔽物体分割(Weakly-Supervised Concealed Object Segmentation,WSCOS)旨在从稀疏标注的训练数据集 学习一个分割模型,并在测试数据集 上测试该模型,其中 和 分别表示训练图像和测试图像, 表示稀疏标注,可以是前景或背景的一些点或涂鸦。学习分割模型是一项具有挑战性的任务,因为隐蔽物体通常与其周围环境很好地融合,使得区分前景和背景变得困难。此外,稀疏标注 可能无法提供足够的监督来学习能够做出准确密集预测的模型。
为了解决这些挑战,我们首先提出利用最近提出的视觉基础模型“Segment Anything Model (SAM)”从稀疏标注生成高质量的密集掩码,并将这些密集掩码作为伪标签来训练分割模型。此外,我们提出了一个多尺度特征分组(Multi-scale Feature Grouping,MFG)模块,该模块在不同粒度上对特征进行分组,鼓励分割结果的一致性,并有助于在各种隐蔽场景中获得完整的分割结果。
SAM伪标签
SAM(Segment Anything Model)是最近发布的通用物体分割的视觉基础模型【19】。该模型在超过十亿个分割掩码的训练数据上进行了训练,并展示了为各种物体类别生成精确分割掩码的令人印象深刻的能力(所谓的“分割任何东西”)。然而,与一些热衷者夸耀的“SAM已经‘解决’了分割任务”不同,我们发现SAM还远未达到这种水平,至少在研究的隐蔽物体分割任务中是如此。
首先,SAM需要“提示”来提供关于感兴趣物体的线索以生成分割结果。虽然提示可以有多种形式,例如点、掩码、边界框等,但它们需要由人类或其他外部资源(如其他算法)提供。这种额外提示输入的需求使得SAM无法(直接)用于仅提供测试图像的应用。此外,我们发现尽管SAM在一般场景图像中表现出色,但由于前景物体与背景之间的内在相似性,它在隐蔽物体图像中仍然表现不佳。
因此,在我们的研究中,SAM的应用仍然面临诸多挑战,特别是在仅有稀疏标注或提示输入不足的情况下。我们需要进一步改进和优化模型,以适应隐蔽物体分割的特殊需求。
在本文中,我们引入SAM用于弱监督隐蔽物体分割(Weakly-Supervised Concealed Object Segmentation,WSCOS)任务。如图1所示,我们使用SAM将训练图像中的稀疏标注作为提示生成分割掩码,并将这些分割掩码作为伪标签来训练一个COS模型,该模型将用于测试。预期SAM生成的伪标签可能不可靠。为了解决这个问题,我们提出了三种技术:多重增强结果融合、像素级加权和图像级选择。

多重增强结果融合
对于给定的隐蔽图像,我们通过随机应用从图像翻转、旋转(0°,90°,180°,270°)和缩放(×0.5,×1.0,×2.0)中采样的随机增强操作,生成K个增强图像
。我们将送入SAM模型,使用稀疏标注作为提示,生成分割掩码,其中
。
注意,的形状与输入图像 相同,但可能与 的形状不同;我们进行逆图像变换以确保所有掩码与原始图像具有相同的形状。
由于在使用不同提示输入SAM时可以获得不同的分割结果,我们预期会有所不同,因为使用了不同的增强图像进行分割。图2展示了一些示例。可以看到,尽管这些掩码在形状上有显著差异,但它们在某些区域重叠,这些区域是SAM在不考虑图像变换时可靠预测的,通常对应正确预测的前景区域。此外,这些掩码相互补充,使得某些被一个掩码遗漏的前景区域可以在其他掩码中找到。基于这些观察,我们提出融合不同增强图像的分割掩码,如下所示:
其中 是融合后的掩码。我们预期 会比单个掩码更可靠,因为它是对各种增强图像的集成结果。
像素级加权。不同像素的预测可靠性可能有所不同。为了突出那些更可靠的像素,我们提出使用熵来对预测进行加权。我们计算每个像素的熵,并得到一个熵图,具体计算公式如下:
由于熵图是从融合掩码中计算得出的,它衡量了每个像素在所有增强图像中的预测不确定性。只有当一个像素在所有增强图像中都被自信且一致地预测时,它才会具有低熵值。因此,我们可以使用这个熵图对融合掩码 进行加权,并赋予那些可靠像素更高的权重。
图像级选择。我们观察到,对于一些高度挑战的隐蔽图像,无论使用何种类型的增强图像,SAM在使用稀疏标注作为提示时都无法生成合理正确的结果。这从根本上使上述像素级加权策略失效。为了解决这种情况,我们进一步提出一种图像级选择机制,选择性地挑选用于训练的图像,以进一步提供可靠的监督来训练分割模型。
类似于使用熵来定义像素级预测不确定性,我们提出了两种基于熵的图像级不确定性测量方法,即绝对不确定性 和相对不确定性 。绝对不确定性 指的是高不确定性像素在所有像素中的比例,而相对不确定性 表示高不确定性像素与具有低不确定性的前景像素的比例,这特别适用于小物体场景。当像素的熵高于0.9时,我们将其视为高不确定性像素。我们定义以下指示函数来决定是否保留图像用于训练:
其中,和 分别设置为0.1和0.5。
将熵权重 应用于融合掩码 以及图像选择指示器,我们得到最终用于训练分割模型的掩码,公式如下:
我们的技术利用SAM生成分割掩码,并进一步结合多重增强结果融合、像素级不确定性加权和图像级不确定性过滤,从而能够生成可靠的伪标签来训练分割模型。
多尺度特征融合
隐蔽物体中的内在相似性可能导致多个物体的分割不完整和部分对象定位不准确。在弱监督场景中,由于分割器的辨别能力有限,这些问题可能进一步加剧。为了解决这个问题,我们提出了一个多尺度特征组合(MFG)模块,它在不同的粒度上提取区分性特征。MFG通过探索前景/背景区域的一致性并在不同级别上进行特征组合来实现这一点。通过促进特征的一致性,MFG可以通过增强对象内部的局部相关性来缓解不完整的分割,并通过在多个对象之间寻求全局一致性来进一步促进多对象分割。所提出的MFG模块的架构如图3所示。

图3:提出模型的架构。 表示具有 个原型的特征组合。由于空间限制,我们简化了 中的广播过程。
特征组合。假设 是输入图像的特征表示。我们通过将 映射到 个可学习的聚类原型 来进行特征组合。这些聚类原型 是随机初始化的。我们首先将可学习的空间位置嵌入 追加到输入特征 上,得到 。然后,我们将原型 和定位特征 线性变换为、 和 :
其中 是可学习的权重。为了确保特征被唯一地分配到聚类原型,我们对所有原型的系数进行归一化,具体操作如下:
然后,我们计算输入值相对于原型的积分值 ,具体如下:
并通过将原型 和积分值 输入到门控循环单元(GRU)中来更新原型:
通过对等式 (6) - (9) 进行 次迭代,聚类原型会被逐步更新,并逐渐强化相似特征之间的关联。在本文中,。
我们将每个原型广播到一个带有可学习空间位置嵌入 的二维网格上,得到 ,并使用 卷积对每个原型进行下采样,得到。然后我们将这些原型连接起来,得到。
为了方便后续使用,我们将具有 个原型的特征组合过程表示为 。
多尺度特征聚合。上述特征组合技术中的原型数量 控制了组合的粒度:较小的 有助于提取全局信息,而较大的 则可以提供更有价值的详细信息。为了达到平衡,我们提出了多尺度组合特征的聚合方法,这些特征具有不同数量的原型。借鉴以其优越的数值解而闻名的二阶龙格-库塔 (RK2) 结构【30】,我们使用RK2来聚合这些特征。此外,如图3所示,我们采用加权门机制 来自适应估计权衡参数,而不是使用固定系数。给定特征 ,自适应聚合特征 表述如下:
其中 , 和 是中的可学习参数。 和 分别是组的数量,在本文中经验设置为4和2。
我们的多尺度特征组合技术受到插槽注意力技术【31】的启发,但在以下方面与插槽注意力有所不同。插槽注意力以自监督的方式针对实例级组合,而我们的MFG(多尺度特征组合)旨在自适应地挖掘特征级的一致性,以实现完整的分割和准确的多对象定位。为了简化分割器并确保其泛化能力,我们去除了插槽注意力中用于图像重建的辅助解码器以及重建约束。此外,我们采用RK2结构来聚合具有不同原型数量的多尺度组合特征,这进一步促进了特征一致性的挖掘,从而有助于提高分割性能。
弱监督下的隐蔽对象分割
为了将提出的 MFG 技术用于隐蔽对象分割,我们将 MFG 与现有伪装对象检测模型中使用的编码器和解码器架构相结合,构建一个新颖的分割器。该模型包括一个以 ResNet50 为支撑的编码器 ,将输入图像 映射到特征空间,即 。利用获得的 ,我们应用 MFG 进行多尺度特征组合,得到 。随后,一个解码器 将 映射回图像空间,生成预测的掩码。图3提供了该模型的概念示意图,更多的架构细节可以在补充材料中找到。我们联合使用 SAM 模型生成的稀疏标注 和分割模型生成的掩码 对整个模型进行训练,如下所示:
其中,第一项是部分交叉熵损失 ,用于确保预测地图与稀疏标注 之间的一致性【29】。第二项和第三项分别是交叉熵损失 和交并比损失 ,都是使用伪标签 计算的。
参考文章
致谢:
有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
- 作者:VON
- 链接:https://baisihan.asia/article/a62b1c52-ee2b-451f-8dfe-955e72bb8437
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。