(AAAI2021-SCWSSOD)Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence 论文阅读
date
May 31, 2023
Last edited time
May 31, 2023 09:59 AM
status
Published
slug
SCWSSOD论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
AbstractI. MotivationII. Network ArchitectureIII. Aggregation ModuleIV. Local Saliency Coherence LossV. Self-Consistent Mechanism & Structure Consistency LossVI. LossVII. Experiment
Abstract
近几年来,稀疏标签一直备受关注。然而,弱监督与完全监督的 SOD 方法之间的性能差距是巨大的,并且以前的大多数弱监督方法都采用了复杂的训练过程与花哨的设计技巧。在本文中,我们提出了一个通过草图标注 (scribble annotation) 来进行弱监督显著目标检测的单轮端到端训练方法,不需要预处理 / 后处理操作或者额外的监督数据。由于草图标签不能提供详细的显著区域,我们提出了一个局部一致性损失,根据图像特征与像素距离来将标签传播到未标记的区域,从而预测具有一致目标结构的整体显著区域。此外,我们设计了一个显著结构一致性损失作为自治机制,以确保在输入不同尺寸下的同一图像时,输出一致的显著图,其可以被看做一种正则化技术,来提高模型的泛化能力。此外,我们还设计了一个融合模块(AGGM),以更好地处理高级特征、低级特征与全局上下文信息,供解码器融合。大量的实验表明,我们的方法在六个基准测试上取得的了新的 SOTA。
I. Motivation
这里首先介绍一下 Weakly Supervised SOD 的概念。所谓弱监督,即使用更易获得的标签,来提升标签的效率 (传统的逐像素标记标签需要大量的时间成本),并且在这种标签质量降低的情况下尽可能地去保证模型的性能。
目前使用草图标注做弱监督还处于比较起步的阶段,作者指出现有的方法 [1] 需要额外引入一些信息 (如显著边界) 以恢复完整的目标结构。但是这就有个问题,引入的这种显著边界信息也是靠额外的算法算出来的,如果不准的话就会对最终结果造成影响。此外,这些方法的整体流程也较为复杂,并非端到端的。为此,本文解决的一大问题是使用端到端的方法来训练弱监督 SOD 网络。
此外,作者还发现一个问题,现有的弱监督 SOD 方法对输入图像的尺寸十分敏感,输入不同尺寸下的同一图像得到的结果并不一致,如下:
如图,理想情况应如列 b 所示,而目前大多数方法会出现列 a 所示的情况。因此本文也从模型泛化性 (鲁棒性) 的角度进行着手。
II. Network Architecture
整体属于 Encoder-Decoder 架构。不过从这张图也可以看到,本文网络并没有设计太多的额外模块 (就只有一个 AGGM 模块),主要的工作重心放在如何去设计各种 loss 上。AGGM(图中带圈的 A) 加在各 Decoder 块的后面,起一个多级特征融合的作用。
III. Aggregation Module
这里 Aggregation Module 的缩写用的是 AGGM 而非 AM
融合模块结构如下所示:
做的是高级特征 、全局特征 、局部特征 的融合。多级特征融合在传统 SOD 领域已经做的非常多了,这里也大概介绍一下本文融合模块的思想。
、、 之间是存在 gap 的,不能直接采取 element-wise sum 或 channel-wise concat 的方法进行简单的融合。此外,在 Decoder 总结信息的各个阶段,三种特征的相对重要程度是会发生变化的,例如对于深层的 Decoder 块,全局特征就更重要些;而对于浅层的 Decoder 块,局部特征就更重要些。因此,需要做带权融合,而权重就自然可以通过设计注意力机制来学习。
从上图可以看到,本文的做法是,对于特征 ,利用一个 3×3 卷积以及一个全局平均池化层来计算得到权重 。将 与 相乘,得到注意力处理后的特征。将三个经注意力处理后的特征相加,然后除以权重之和,得到最终融合后的特征 :
IV. Local Saliency Coherence Loss
Local Saliency Coherence Loss 的示意图如下所示:
这个局部显著一致性损失 是针对草图标签的特点来设计的。那么何为局部显著一致性呢?作者认为,对于同一张图片中的像素 与像素 ,如果两者的特征相似或者位置相近,那么在最终结果中两者的显著分数也应该差不多。为此,利用 距离定义定义显著距离 如下:
其中 和 指相应像素的预测显著值。
类似于 Weakly-Supervised Camouflaged Object Detection with Scribble Annotations
的图像如下
此时文中提到了这么一点,不能直接算每个像素与其他所有像素 (即任意两像素) 之间的相似度,这样很容易引入背景噪声并带来额外的计算开销。为此对于给定像素,比较其周围几圈的其他像素( 范围内,类似感受野的概念),这么做就可以学到一定的局部显著一致性信息。
然而全局显著一致性信息也是需要的,但是正如刚才提到的,不能通过直接两两比较来进行计算,那应该怎么做呢?为此本文引入了相似能量 (similarity energy) 的概念,利用高斯核带宽滤波器 (Gaussian kernel bandwidth filter) 来计算,此时有:
指的便是像素 周围的 区域,而 指以下高斯算子:
为标准化权重, 为像素 的位置, 为像素 的 RGB 值, 为高斯核的超参数。
总而言之, 迫使核内相似的像素能共享一致的显著性分数,从而实现局部显著一致性。
V. Self-Consistent Mechanism & Structure Consistency Loss
Structure Consistency Loss 的示意图如下所示:
自一致性机制是用来解决上文提到的一个情况,即之前的大多数方法在输入不同尺寸下的同一图像情况下得到的结果并不一致。形式化描述的话,记一个 SOD 方法为 ,其参数为 。记一个变换为 。那么对于一个理想状态下的鲁棒 ,给定输入图像 ,有:
即,对输入图像进行尺寸变换,得到的输出结果,应该与将原始图像输入所得到的输出,进行尺寸变换后得到的结果相同。但是目前大多数弱监督 SOD 网络难以实现这一点。
为此本文设计了一个结构一致性损失来解决这一问题,有:
其中 表示在原始输入情况下,输出结果再进行下采样后得到的特征图,而 表示对原始输入进行下采样情况下,得到的输出特征图, 为像素数。该损失的思想在于使网络能够学习更多的目标结构信息,进而增强对不同输入尺寸的适应能力。
VI. Loss
本文采用了 deep supervision 技术,并使用主副损失,即各 Decoder 块输出的中间结果使用副损失进行监督,而最终预测结果使用主损失进行监督。主副损失技术出自 GCPANet。
首先,针对草图标签问题,使用 partial cross entropy loss,有:
其中 为 gt, 为预测值,而 为草图标签中被标注的像素:
此时,主损失 副损失 有:
其中 指的是不同 Decoder 块,而 为超参数。最终本文的损失可以记做:
其中 为权重,用于对不同副损失进行平衡。
这用的是不是有点简单