伪装目标检测入门
date
Oct 9, 2022
Last edited time
Dec 3, 2022 04:31 PM
status
Published
slug
伪装目标检测入门
tags
DL
CV
summary
2022.10.11@更新两篇论文的阅读
2022.10.15@更新一篇UGTR的论文阅读
2022.12.03@更新不知道几篇
type
Post
Field
Plat
伪装目标伪装目标检测基于由粗到细策略的伪装目标检测基于多任务学习策略的伪装目标检测基于置信感知学习策略的伪装目标检测基于多源信息融合策略的伪装目标检测基于 Transformer 的伪装目标检测测量指标COD 基本方法Review2021CVPR2021Access2021ICCV20212022CVPR2022ECCV2022IJCAI2022AAAI2023SOD 基本方法Reference
伪装目标
伪装是自然界中广泛存在的一种生物现象,它可以帮助自然界中的生物利用自身结构和生理特征来融入周围环境,从而躲避捕食者。除了自然界的生物伪装,还存在人工伪装,如军事中的迷彩伪装士兵以及艺术中的人体彩绘等。为了识别这些完美嵌入周围环境中的伪装生物和人工伪装目标,研究者们提出了许多伪装目标检测(Camouflaged Object Detection,COD)方法。然而,与其他任务(普通目标检测[1-3]、显著性目标检测(Salient Object Detection, SOD)[4-6])相比,伪装目标在纹理、颜色、形状等与背景高度相似,且其边界与周围环境的视觉辨识度极低,这导致检测伪装目标更具挑战性。
Camouflaged 的方式包含 Background Matching 与 Disruptive Coloration.
伪装目标检测
现有的大部分基于深度学习的伪装目标检测方法首先采用卷积神经网络(Convolutional Neural
Network, CNN)如VGG (Visual Geometry Group)、ResNet (Residual Neural Network)、Res2Net 等
提取特征,然后采用由粗到细、多任务学习、置信感知学习、多源信息融合、Transformer 等不同策略来进一步增强特征,进而提升伪装目标检测性能。
基于由粗到细策略的伪装目标检测
由粗到细策略是一种结合全局预测和局部细化的体系结构,这种结构可以将复杂目标进行解耦,先对整体区域进行粗糙预测,再通过多种手段细化预测。
- 利用特征融合细化的伪装目标检测方法
- 利用分心挖掘细化
- 利用边缘线索细化的伪装目标检测方法
基于多任务学习策略的伪装目标检测
多任务学习策略通过引入常见的分类、定位等任务或者其他检测任务来辅助二值分割主任务以提升伪装目标的检测性能,通过多种任务的协同工作,以挖掘更加丰富的伪装目标信息。
- 基于定位/排序+分割的伪装目标检测方法
- 基于边缘检测+分割任务的伪装目标检测
- 基于仿生攻击+分割的伪装目标检测方法
- 基于纹理检测+分割的伪装目标检测方法
基于置信感知学习策略的伪装目标检测
置信感知学习旨在估计代表数据质量的不确定性(任意不确定性)或对真实模型的感知不确定性(认知不确定性)。在完全监督模型中,置信感知学习被用来测量预测与真实标签的高阶不一致性,并且它已被证实能够有效提升深层神经网络的鲁棒性。在伪装目标检测任务中,一些工作引入置信感知学习策略,明确建模网络预测的置信度来促进模型学习图像中的困难样本,以此提升模型的鲁棒性。现有基于置信感知学习策略的伪装目标检测方法的主要不同在于对模型不确定性的表示和建模过程。
研究者们对于完全标注伪装目标的困难带来的不确定性、模型预测和真实标签之间的不一致性、不可区分的纹理或边缘的不确定性等分别采用对抗训练策略、动态监督策略、正则化约束策略等进行伪装目标检测。
Li 等人对完全标注伪装目标时产生的不确定性,提出了 JCSOD 模型,使用全卷积判别器来估计预测结果的置信度,并采用对抗训练策略对置信度估计显式建模。
ZoomNet 对不可区分纹理和复杂背景干扰带来的不确定性进行建模,提出的ZoomNet 在目标检测损失中加入正则化约束,增加对模糊预测的惩罚,来迫使模型关注不确定像素,这种方式以简单的计算降低模糊背景带来的干扰。
UGTR ( Uncertainty-guided Transformer Reasoning) 将 CNN 和 Transformer 结合起来,利用概率表示模型学习 Transformer 框架下伪装目标的不确定性,使得模型能更多关注不确定区域。但它仅对不确定性建模,使得模型的不确定响应区域总是分布在弱边界和不可区分的纹理区域,学习过程中不可避免地会引入噪声。
基于多源信息融合策略的伪装目标检测
前面所有模型仅采用 RGB 信息进行伪装目标检测,为了获得更加丰富的伪装目标信息,一些研究者采用多源信息,如深度信息、频域信息等来补充 RGB 信息,从而提升伪装目标检测性能。
使用离线离散余弦变换引入频域信息,同时用特征对齐融合RGB 域和频域信息。
基于 Transformer 的伪装目标检测
测量指标
伪装目标检测通常被定义为二值图像分割任务,为了全面评估伪装模型的精度和泛化能力,广泛使用S度量、E度量、F度量和平均绝对误差M来测试每个模型的生成预测图。
- S度量
度量 ():用来评估预测图和真值图之间的结构相似性,它包括两个参数 和 ,其中 计算目标感知, 获取区域观测特征。 度量 可以被描述为:
- E度量
度量 ( ):通过比较预测图和真值图之间的差异来评估伪装目标检测结果的整体和局部精度。
- F度量
度量():用来计算精确率 和召回率 的关系,能够计算出 和 之间的平均谐波测量值,幵将其数值显示出来。
- 平均绝对误差M
平均绝对误差 MAE(M):是计算每个像素的平均绝对误差,其定义式为:
COD 基本方法
Camouflaged Object Detection(SINet V1)
本文的 SINet 框架受到狩猎过程的前两阶段的启发。框架主要包括两个模块:搜索模块 (Search
Module, SM) 和识别模块 (Identification Module, IM)。前者负责搜索被伪装的物体,而后者则用于精确检测物体。
SINet V2
纹理增强模块(TEM)
我们在搜索阶段(通常在小的/局部空间)使用TEM 模块以便融合更多具有辨识度的特征。
近邻连接解码器(NCD)
在聚合多个特征金字塔时仍有两个关键问题:那就是如何保持层内语义一致性和如何桥接层间的上下文内容。这里提出 近邻连接解码器(NCD)来解决这些问题。具体而言,通过近邻连接函数修改了部分解码器 (PDC)模块并得到三个提纯后的特征:,其中 以及 ,整个过程定义如下:
其中 表示一个 3×3 卷积层接一个批归一化操作。为了确保候选特征之间的尺寸是匹配的,在元素级别的相乘 之前运用上采样操作(例如两倍上采样)。接着,将
, 传入近邻连接解码器(NCD)并生成粗糙的定位图 。
分组反向注意力(GRA)
全局定位图 由最高三层特征所生成,它仅仅捕捉了相对粗略的隐蔽物体的位置,而忽略结构和纹理细节。为了解决上述问题,本文提出了一个原则性的策略,通过抹除目标来提取具鉴别性的隐蔽区域。
BASNet: Boundary-Aware Salient Object Detection
BASNet ( Boundary-aware Segmentation Network)模型,学习粗略预测图和 GT 之间的残差来对粗糙预测进行细化,并设计了一种结合二进制交叉熵损失、结构相似性损失和 IoU 损失的混合损失来隐式地引导网络更加关注目标边界信息,因此BASNet 能够在不显式提取边界的情况下获取精细的伪装目标边界。
Deep Texture-Aware Features for Camouflaged Object Detection (TANet)
本文提出通过 texture-aware refinement module(TARM)模块来学习深度卷积神经网络中的纹理感知特征,从而放大伪装物体和背景之间的细微纹理差异,实现伪装物体检测。纹理感知细化模块计算特征响应的协方差矩阵以提取纹理信息,设计一个 affinity loss 来学习一组参数图,帮助分离伪装物体和背景之间的纹理,并采用边界一致性损失来探索物体的细节结构。
整体框架
给定输入图像,采用特征提取器提取多种分辨率的特征图,然后利用residual refine blocks(RRB)细化不同层次的特征图,以增强细节和去除背景噪声。
由于内存占用较大,我们忽略了在第一层细化特征图。接下来,我们提出了纹理细化模块(TARM)来学习纹理特征,这有助于提高伪装对象的可见性。
最后,我们预测二进制掩码,通过在多层添加监督信号来指示每层伪装的对象。
Texture-Aware Refinement Module(TARM)
首先,输入图像使用 的卷积运算获得多个特征图。为了计算效率,这里的 小于 。
接下来,计算协方差矩阵,以获得卷积特征上不同响应之间的相关性,描述特征的组合,并用于表示纹理信息。首先计算特征图每个像素与自身的转置的内积,得到协方差矩阵。然后采用该矩阵的上三角形式来表示纹理特征,并将结果整形为特征向量。对每一个像素都执行相同操作,最后得到协方差特征图。然后将这些协方差特征图拼接,经过一个 的卷积融合这些协方差特征图。
然后,使用两组3x3的卷积分别获得两组不同的参数图 和 ,用于调整输入特征的纹理, 放大伪装对象和背景的差异
是输入图像, 和 是其均值和方差, 是经过3×3卷积提取的特征图,conv是一个3×3卷积。
Affinity Loss
为了使特征图 和 捕捉伪装对象和背景之间的纹理差异,我们采用Affinity Loss来放大纹理特征之间的差异。对于真值图像,进行下采用后,采用以下公式求得亲和力矩阵 .
是一个指示函数,当 和 (在位置 和 处)属于同一标签时为 ,其他情况为 。
对于参数图,使用池化进行下采样,采用以下公式求得亲和力矩阵 .
和 是参数图像 和 位置的 维向量,进行转置相乘,分母是两向量的 范数,结果 代表成对纹理的相似性结果矩阵。将两个亲和力矩阵通过如下损失函数求得损失:
由于自然图像中伪装对象通常占据较小区域,为了解决类间不平衡问题,加入权重 和 扩大伪装对象权重,减小背景权重。 代表相同标签数。
背景与背景像素之间的相关性高, 前景与前景之间的相关性高, 而前景与背景之间的相关性应低.
这个 和 都是分割图.
Boundary-Consistency Loss
卷积特征包含高度语义特征,但参数映射的分辨率较小,往往使掩膜会在伪装对象和背景见产生模糊边界,提出一种边界一致性损失,通过访问跨边界区域的预测结果来改善边界质量。
将图像划分为多个图像块,当图像块内包含不同类别的像素时,选中这些图像块,不执行下采样操作,高分辨率的参数映射有利于为边界提供更详细的信息。
Experiment
Accurate Camouflaged Object Detection via Mixture Convolution and Interactive Fusion
现存DEEP-BASED COD模型的缺点
原文认为deep-based COD模型的成功有两个关键因素:
- A significantly large receptive field, which provides rich context information
- An effective fusion strategy, which aggregates the rich multi-level features for accurate COD
这些已经提出的deep-based COD模型的缺点一是忽略了大感受野的作用,二是fusion机制过于简单。
网络架构
可以看到,网络整体是encoder-decoder结构的,encoder部分直接使用了ResNet50作为backbone。绿色为DMC模块,蓝色为IMF模块。
首先从backbone选取四个level的特征图,记作 。然后分别扔到四个DMC模块,得到 ,然后这四个经过了DMC的特征图相邻间两两做Hadamard积(也就是elementwise 乘法啦)得到三个特征图 ,继而如图通过一个IMF模块的decoder,递推关系为:
其中 。因此,应该上述操作后,得到了decoder输出的四个特征图 ,将 通过一个卷积层得到 ,而另外三个decoder输出的特征图记作 ,这四张特征图直接和GT做监督。
可以看到,整体的架构还是很简单的,于是乎接下来的重点便是细看DMC模块和IMF模块了。
DMC模块
这是原文中用来增大网络感受野的措施,可以看到,输入的特征图首先经过一个3x3的卷积,先粗略地提取特征;然后将结果投射到两个卷积分支中,这两个卷积分支是独立的,并且是非对称的,每一个分支都是采用了经典的瓶颈架构,也就是先经过一个1x1卷积,再经过1xc和cx1的卷积。然后为了最大化两个分支结果的最大特征,将两个分支得到的结果相加;接着再投射到两个分支中去,这么做的目的原文中解释为进一步增大感受野。再经过两个分支的3x3空洞卷积,其中的空洞率分别为5和7,最终按位相加后经过一个3x3的卷积再激活输出。
MIF模块
MIF,即multi-level interactive fusion的简称,是原文中一种基于attention机制的特征融合模块,结构如下:
其中的max和mean操作是以输入的特征图的通道数这一个维度为轴的,product操作是矩阵乘法,其余的部分流程图中标得很清楚,此处就不再赘述了。
不过可以看到,原文中是max和mean都用了,他们的融合策略是在经过一个CBR(卷积+批标准化+激活)后需要融合的两个分支都有一个残差,而两者的残差在前向运算的过程中也进行了充分的交互,规律是一个的mean和另一个的max的结果做矩阵乘法。最终残差连接后得到的两个特征图也不是做简单的拼接,而是resize后做矩阵乘法,最后卷积后在输出。
这种矩阵与矩阵的乘法容易让人联想到gram matrix的计算,而gram matrix的计算结果一般是为了表征一些中层的语义信息,比如图形的纹理,颜色基调等等。而在COD中,纹理和颜色基调确实是需要考虑的因素之一。
Experiment
Review
2021
CVPR2021
Camouflaged Object Segmentation With Distraction Mining(PFNet)
论文开发一个生物启发的定位和聚焦网络(Positioning and Focus Network, PFNet),包含两个关键模块,即定位模块(Positioning Module,PM)和聚焦模块(Focus Module,FM)。PM 被设计用来模仿捕食中的检测过程,从全局的角度定位潜在的目标物体,然后FM 被用来执行捕食中的识别过程,通过在歧义区域的聚焦来逐步细化粗糙的预测结果。
PM 由一个通道注意力模块和一个空间注意力模块组成,来捕获通道和空间位置方面的长范围的语义依赖,从而从全局角度推断伪装物体的初始位置。FM首先基于前景注意(或者背景注意)特征进行多尺度的上下文探索,发现假阳性(或者假阴性)干扰,然后去除这些干扰,得到目标物体更纯净的表示。
PM 模块
FM 模块
本文首先对更高级别的预测进行上采样,然后使用 sigmoid 层对其进行归一化。将此归一化图及其取反版本与当前级别的特征 相乘,分别生成前景注意的特征 和背景注意的特征 。最后,本文将这两种类型的特征送入两个并行的上
下文探索(CE)模块中来执行上下文推理,以分别发现假阳性分心 和假阴性分心 。
在分心发现之后,本文可以按以下方式进行分心去除:
最后,在细化后的特征上应用卷积层,得到更准确的预测结果 。
Simultaneously Localize, Segment and Rank the Camouflaged Objects
- 本文提出了伪装对象排名(COR)和伪装对象定位(COL)这两个新任务,以估计伪装对象的难度并识别伪装对象明显的区域
- 为上述两个任务提供了相应的训练和测试数据集。
- 提出了Inferring the ranks of camouflaged objects框架,该框架结合了定位、分割和分等级三个功能。
CAM-FR 数据集
我们从CAMO数据集和COD10K数据集中选取一些图片进行定位标注和难度排名分级,并将该这个新的数据集称为CAM-FR。关于难度排名分级,是由观看者找到伪装对象所需要的时间长短来确定的。
我们提出了额外的固定("Fixation")和排名("Ranking")标注,前者展示了使伪装物体可被检测到的区域,后者突出了伪装的程度。
大多数伪装物体在低级特征方面与背景缺乏明显的对比,对伪装物体的检测可能会借助于与一些 "鉴别性模式 "有关的特征,如脸部、眼睛或天线。我们认为,正是这些 "鉴别性图案 "使猎物被捕食者发现。对于 Background Matching,这些图案具有与周围环境不同的颜色,而对于 Disruptive Coloration,它们是复杂生境中的低对比度身体轮廓。为了更好地理解猎物的伪装属性,我们还建议揭示伪装物体最容易被探测到的区域,即伪装物体辨别区域定位 COL.
模型结构
我们将“discriminative region”视为伪装对象明显的区域,该区域与周围的环境有更高的对比度。基于该发现,我们设计了一个联合伪装目标定位和分割的网络,如图Figure3。
使用ResNet50作为backbone,给定输入图像I,送入backbone,在不同阶段得到特征映射S1,S2,S3和S4。
使用Fixation Decoder获得Fixation Map(即discrimination region),该结果将与ground truth进行损失计算。然后将Fixation Map送入反向关注框架。
反向关注框架有一个与ResNet50相同的网络,然后使用Camouflage Decoder得到Camouflage Map。具体的来说,令Fixation Map为F,将1-F作为注意力与S1特征相乘。然后通过Camouflage Decoder得到Camouflage Map。
实验
Mutual Graph Learning for Camouflaged Object Detection(MGL)
由于前景对象和背景环境之间的内在相似性使得深度模型提取的特征无法区分, 为了克服这一挑战,一个理想的模型应该能够从给定的场景中寻找有价值的额外线索,并将它们整合到一个联合学习框架中,以实现表征的共同增强。在此启发下,我们设计了一种新的基于图、交互式学习的伪装目标检测方法,叫做交互式图学习模型(MGL)。具体来说,MGL将一幅图像解耦为两个任务(COD和COEE)的特征图 —— 一个用于大致定位目标,另一个用于准确捕捉其边界细节, 并通过图对它们的高阶关系进行反复推理,充分挖掘其互利性。重要的是,与大多数使用共享函数来模拟所有任务间相互作用的 mutual learning 方法相比,MGL配备了类型化的函数来处理不同的互补关系,以最大化信息的交互。
MGL主要由三个部分组成: Multi-Task Feature Extraction (MTFE), Region-Induced Graph Reasoning (RIGR) module和Edge-Constricted Graph Reasoning (ECGR)。
Multi-Task Feature Extraction
给定输入图像 ,使用multi-task backbone解耦为两个特定于任务的表示。用于粗略的检测目标(COD), 用于正确的捕捉真实边缘(COEE)。
是 multi-task backbone network(一个多分支的基于ResNet的FCN网络)。
Region-Induced Graph Reasoning
RIGR旨在推理COD内部以及COD和COEE之间的引导区域语义关系,而不考虑局部细节。它由四个操作/功能组成:图投影 ,交图交互 ,图推理 和图重投影 。
Uncertainty-aware Joint Salient Object and Camouflaged Object Detection(JCSOD)
- 这篇文章提出了一种数据集扩充策略, 将伪装数据集中的简单样本作为显著性检测的困难样本,实现了一个鲁棒的显著性模型。
- 在对抗式学习框架下引入第一个联合显著目标检测和伪装目标检测网络,明确建模每个任务的预测不确定性。
数据扩充
高质量的数据集对于网络的性能有较大的影响。而对于这两个任务:显著目标检测与伪装目标检测都是要把图中感兴趣的那个东西给标出来,区别在于:
- 显著目标的前景与背景往往差别很大,此所谓“显著”
- 伪装目标的前景与背景往往十分相似,否则就不存在“伪装”的说法
这么乍一分析,感觉对于同一张图片,两个任务的标注对象应该不一样,但如果打开COD数据集一个个去看的话,会发现下面这种例子:
为此,我们利用COD数据集中的简单正样本作为SOD任务中的困难正样本,以提高SOD模型的鲁棒性。最终作者是挑了400对样本(猜测是MAE从小到大排序到400差不多还能用),然后随机替换掉原有SOD数据集中的400组图片,来作为新的SOD数据集。本文使用SOD网络对COD数据集进行Inference, 寻找到MAE小的, 说明原有的SOD模型也能处理的比较好, 是简单正样本.
Contradicting modeling
其中:
- : SOD数据集中的图像
- : COD数据集中的图像
- : 用于SOD的Encoder,backbone为ResNet50
- : 用于COD的Encoder,backbone为ResNet50
- : PASCAL VOC 2007数据集中的图像
- : 相似度度量模块
- : 共同decoder,能够生成SOD或者COD的预测结果
- : 判别器, 判断输入的结果是否为GT
Similarity Measure
Similarity Measure 模块的作用是 connection modeling,对SOD与COD两个任务之间的关联性进行建模。那么可以回到 上来,这个数据集中的图像既送入了SOD Encoder中也送入了COD Encoder中,目的就是提取同一张图片的显著性特征与伪装性特征。这两个特征记为 和 ,即 的输入,有:
再将这两个特征送入同一个全连接层。此时,就可以得到两个latent feature。将SOD的latent feature记为
,COD的latent feature记为 ,有:
对于PASCAL VOC中的图像某一张特定图像 ,其经过SOD、COD处理后激活的区域应该是不一样的,如下所示(即假设PASCAL数据集中以伪装对象为主的图片极少):
然后,对于latent space中的两个latent feature,计算其余弦相似度,得到latent space loss,记为, 有
Figure4展示了来自显著性编码器(第一行)和伪装编码器(第二行)的同一图像的激活区域(经处理的预测)。图4显示,两个编码器聚焦于图像的不同区域,其中显著性编码器更关注从上下文中突出的区域,伪装编码器更关注与背景颜色或结构相似的隐藏对象,这与我们假设这两个任务在总体上相互矛盾是一致的。
既然SOD与COD关注的区域不一样,那么如果某一区域被SOD激活了,说明该区域不应该被COD激活,反之亦然。通过这么训练,可以使SOD Encoder丢弃一些误识别的背景,COD Encoder丢弃一些误识别的前景。
Uncertainty-aware adversarial learning
对于SOD数据集,不确定性来源于显著性的模糊性。例如a和b,红色框的球是突出的,但是他在背景中。
对于COD数据集,不确定性来源于标注的困难性。例如c和d,橙色区域是伪装对象,但是他与背景过于相似,很难创建准确的注释。
为此,我们引入了一种不确定性感知的对抗性训练策略,在我们的联合学习框架中对特定任务的不确定性进行建模,该框架包括一个“预测解码器”模块来产生与任务相关的预测,一个“置信度估计”模块来估计每个预测的不确定性,以及一个用于鲁棒模型训练的对抗性学习策略。
Prediction Decoder
我们设计了一个共享解码器结构。我们认为,不同的“特征编码器”模块可以为SOD图像和COD图像生成特定任务的特征。然后,共享的“预测解码器”模块将任务特定特征与它们相应的较低级别特征相结合以产生预测。
- Re: 一个自顶向下的,带有residual channel attention的模块,用于提取特征
- Da: dual attention模块,用于融合低级细节特征与高级语义特征,得到初始预测结果
- Ha: holistic attention模块,用于对初始预测结果进行细化
对于 、 经各自解码器得到的特征 、 ,有:
其中 为一个3×3卷积,文中写的作用是分类,其实就是将feature map降维至单通道以获得初始结果 。接下来就是对粗结果进行细化:
这样就得到了Decoder输出的最终结果,其中、指的是ResNet backbone的1024、2048通道的卷积层。
训练Prediction Decoder所用的loss为 ,即structure-aware loss,出自论文 F3net,在本文中,有:
最终,SOD与COD各自的structure-aware loss为:
Adversarial Learning
- 生成器就是Encoder-Decoder架构的 、 、,最终由输入图像得到了一个SOD/COD预测结果
- 判别器就是接下来提到的 ,文中称其作用为 Confidence Estimation,目的是区分ground truth与 生成的预测结果
训练判别器 使其能够鉴别输入是否为 GT:
训练生成器, 以生成可以迷惑判别器的结果:
Experiment
Access2021
MirrorNet: Bio-Inspired Camouflaged Object Segmentation
当对象融入周围环境时,它成为了一个成功的伪装对象,以创建一个可以隐藏对象的熟悉的自然场景。通过改变同一场景,有可能可以逃离这种错觉。我们意识到只需简单的翻转操作就可以生成相同场景的新视图。实际上,翻转的图像意外地破坏了自然布局,这导致了背景和伪装物体之间的差别很大。
(有点离谱)
ICCV2021
Uncertainty-Guided Transformer Reasoning for Camouflaged Object Detection (UGTR)
我们提出了一种利用概率表示模型结合 Transformer 在不确定情况下进行显式推理的新方法,即不确定引导 Transformer 推理(UGTR),用于伪装目标检测。其核心思想是首先学习 Backbone 输出的不确定性估计,然后通过注意力机制对这些不确定性区域进行推理,产生最终的预测。
Method
Uncertainty Quantification Network
Uncertainty Quantification Network 学习每个像素位置的不确定性, 其估计每个像素位置种类的均值 以及方差 , 然后我们从分布 采样得到预测的置信度分数. 我们进行 次采样得到 , 我们可以简单地将 视为来自近似预测分布的经验样本,并通过计算方差来衡量模型对其预测的信心: .
为了训练此模块, 我们设计了一下的损失函数:
代表了预测的不确定性, 但是 不就已经是不确定性了嘛
Uncertainty-Guided Transformer & Prototyping Transformer
Prototyping 流程为:
其中, 是添加了位置编码后的按 channel 展平的特征, 是可以学习的参数, .
Experiment
2022
CVPR2022
Segment, Magnify and Reiterate: Detecting Camouflaged Objects the Hard Way (SegMaR)
SegMaR利用设计的固定注释和经高斯运算扩展后的边缘注释以合并和相交的方式生成一种包含边缘线索的判别掩码,以此作为监督来关注伪装相关的边缘信息。另外还设计了一种目标放大和多阶段训练的方式进行迭代细化,但是迭代优化终止条件缺乏理论依据,且多阶段训练方式导致训练复杂且耗时。
现有的方法主要是利用单阶段的检测方式,而忽略具有低分辨率的小物体细化边缘需要比大物体更多的操作。为了解决伪装物体检测(COD)问题,我们受到人类注意力和从粗到细的检测策略的启发,从而提出了一个迭代细化的框架,即SegMaR,它以多阶段检测的方式整合了Segment、Magnify和Reiterate。
首先,我们的方法构建了一个新的伪装分割网络来生成一个初始掩码预测。接下来,对象放大步骤将原始图像和掩码预测作为输入,并利用基于注意力的采样器自适应地放大伪装对象。可以观察到,图像尺寸保持不变,而伪装物体在图像中所占的比例更大。此外,我们通过将具有放大对象的图像传回同一网络并微调网络参数来运行迭代细化。经过更多细化阶段后,SegMaR 能够细化和丰富检测到的细节,尤其是对于小物体。
并且, 我们实现了一种有效的伪装分割网络,该网络引入了分心模块,以更好地解开目标特征。此外,我们还提出了一种新的区分掩码,使网络能够注意到最重要的目标区域。
Camouflaged Segmentation Network
- 为预测的 discriminative 掩模. 为 discriminative 掩模的GT, 以监督网络以更多地关注关键(Fixation)和边缘区域(Dilated edge)。
也是标注数据, 但是存在注意点超出物体范围的情况.
- 为预测的最终二进制掩模.
- Discriminative Decoder 与 Binary Decoder 有着相同的结构, 为图右侧所示. 输入特征图首先是空洞空间金字塔池(ASPP)组件, 目的是在图像中实现多尺度感受野。然后将池化图连接在一起并传递到分心模块(DM)。DM 是一种有效的技术,可以将先前的特征图分别分解为前景和背景特征。与原始 DM 模块不同的是, 我们通过添加两个并行的残差通道注意块(RCAB)来定制 DM 模块,这使得模块更多地关注特征图中的信息通道和高频信息(例如边缘、纹理)。之后,我们使用逐元素减法来反转背景特征,使用逐元素加法来增强前景特征。分心操作的输出特征 表示为
其中 BR 是批归一化和 ReLU 的组合, 和 分别代表前景和背景特征。 和 是两个可学习的参数,初始化为 1。最后,在 DM 之后添加另一个 ASPP 组件以生成输出特征。
Attention based Object Magnification
伪装的物体通常只占整个图像的一小部分,这使得很难检测到准确的物体边缘。受人类总是靠近目标以便看得更清楚这一事实的启发,我们建议在压缩背景信息的同时放大伪装对象.
我们采用基于注意力的采样器算法,根据注意力图D对伪装目标进行放大,利用注意力图计算原始图像和采样图像的坐标之间的映射函数,关注值越大的区域越有可能被采样。通过计算注意力图D在x轴和y轴上的最大值来得到边缘分布.
Iterative Refinement
SegMaR的主要优势是通过以多阶段方式重播Segment和放大步骤进行迭代细化。在训练期间,所有阶段共享相同的网络参数。此外,我们使用相同的超参数,如高斯模糊和核大小来放大对象。当两个连续阶段之间的损失差异变得细微时,迭代细化将终止。
Experiment
Detecting Camouflaged Object in Frequency Domain (FDNet)
FDNet 使用离线离散余弦变换和在线可学习增强的方式让模型在频域中学习更多统计信息,同时使用特征对齐的方式对两种线索进行融合,另外构建了高阶关系模块借助频域信息来促使模型区分伪装和非伪装的细微差异。得益于频域信息的引入以及对所有频带系数的增强,该模型可以提取判别性信息提升伪装目标检测性能。
我们为 COD 任务提供了一个强大的网络,具有增强的频率线索。我们设计了一个具有频率感知损失的频率增强模块(FEM)和一个高阶关系模块(HOR),以更好地利用频域中的信息进行密集预测任务。
Frequency enhancement module
Offline Discrete Cosine Transform
首先将输入的 RGB 图像 转换到 YCbCr空间 , 然后使用 的窗口大小对 进行切割, 其中的每一个 patch , 为 path 的通道. 每个patch被DCT处理成频谱 ,其中每个值对应于某个频带的强度。然后, 对通道进行重新整理, 得到 . 其中 192 = channel * 8 * 8,那么,原始颜色输入被变换到频域。
Online learnable enhancement
Feature alignment
作者引入频率信息来帮助区分伪装物体与背景或干扰物体。因此应该构建另一个模块来融合RGB域和信号域的特征,因为它们没有对齐,如上图所示。特征对齐是一个相辅相成的过程。伪装目标的频率特征是有区别的。RGB特征具有更大的感受域,可以补偿频率特征。由于之前的处理确保 和 在空间上对齐,因此在本部分中,作者仅将频域与rgb域对齐。
High order frequency channel selection
在频域信息的帮助下,已经可以通过不可见的线索来提高网络的性能。然而,如果想要更好地区分伪装对象与其他非伪装对象,需要深入研究 中不同像素之间的关系。具体来说,借助频域信息,可以从背景中分离出真实的伪装和干扰物体。然而,真实的伪装和干扰物体通常共享极其相似的结构信息,频域线索很难区分细微差异。一种直观的方法是引入注意力机制,以探索特征 内不同像素的关系,这可能有助于区分细微差异。然而,常用的注意机制只能捕捉到低阶关系,并且不足以发现这些细微的差异。因此,作者提出了一个高阶关系模块(HOR)来解决这个问题。
Experiment
Zoom in and Out: A Mixed-Scale Triplet Network for Camouflaged Object Detection (ZoomNet)
1. Introduction
伪装对象检测(COD)尝试分割视觉上融入周围环境的对象,除了伪装对象与其背景之间的高度内在相似性外,这些对象通常具有不同的规模,外观模糊,甚至严重遮挡的现象。当前的COD detectors容易受到背景环境干扰因素的影响。因此,很难为伪装对象挖掘出区分性和微妙的语义线索,导致无法从混乱的背景和一些不确定(低置信度)区域的预测中清楚地分割伪装的对象。为了准确地找到场景中模糊或伪装的物体,人类可能会尝试通过放大和缩小(重新缩放)图像来参考和比较不同比例下的形状或外观的变化。受到人类的这种特定行为模式激励,论文提出了一种混合尺度三元组ZoomNet,它显著提高了现有的伪装对象检测性能。
论文贡献如下:
1)提出了一个混合尺度三元组网络网络ZoomNet,它可以通过表征和统一不同缩放的尺度特异性特征以及优化策略来可靠地捕获复杂场景中的对象。
2)为了获得伪装对象的判别特征表示,设计了SIU和HMU来提炼,聚合和加强特定于尺度微妙的语义表示,以实现准确的伪装对象检测。
3)提出了一种简单而有效的优化增强策略UAL,它可以显著抑制来自背景的不确定性和干扰,而无需增加额外的参数。
2. Method
受到人类在观察复杂场景时的缩放策略的启发,不同的缩放比例图像通常包含其特定信息。聚合不同尺度上的差异化信息将有助于从复杂的场景中探索不起眼但有价值的线索,从而促进伪装对象检测。
将同一图像的不同分辨率输入网络,这些尺度分为一个主图图像大小和作为辅助尺度的1.5倍以及0.5倍主图像。后者是通过重新缩放前者来模仿放大和缩小的操作。利用共享的特征编码器来提取不同尺度上的特征,并将它们馈送到尺度合并层。 为了集成这些包含丰富的特定于比例信息的特征,基于注意力感知设计了一尺度集成单(SIU),这将在很大程度上增强模型,以提炼关键和信息丰富的语义线索,以捕获难以检测的伪装对象。之后建立分级混合尺度单元(HMU),以自上而下的方式逐步集成多级特征,以增强混合尺度特征表示。 它进一步增加了感受野范围,并使模块内的特征表示多样化,并且生成分割图。论文还设计了不确定性感知损失(UAL)来协助BCE损失,使模型能够区分这些不确定的区域并产生准确可靠的预测。
2.1 Triplet Feature Encoder
使用ResNet-50作为主干网络,C-Net使用ASPP来捕获全局上下文信息,ASPP层由五个CBR(Conv3×3-BN-ReLU)分支组成。它们的内核大小和感受野大小为1,3,3,3,1和1,2,5,7,1。
ASPP 层结构图下所示
2.2 Scale Merging Layer
设计了一个基于注意力的SIU来筛选并结合特定于尺度的信息,如图所示:
对于 ,使用最大池化与平均池化其进行下采样,这有助于在高分辨率特征中保留伪装对象有效和多样化的响应。对于 进行上采样,将不同的特征进行concate组合后,再通过注意力机制。通过一系列卷积层,softmax激活层之后,可以获得对应于每个尺度的注意图,并将其用作为相应权重。
2.3 Hierarchical Mixed-scale Decoder
采用逐组交互(Group-wise Iteration)和通道机制(Channel-wise Modulation)来探索来自不同通道的判别性和有价值的语义。
不同的通道也包含不同的语义。因此, 有必要挖掘不同渠道中线索。为此,论文设计HMU在通道之间进行信息交互和特征细化。输入 ,包含来自 的多尺度融合特征 和来自 的特征 。
Group-wise Iteration
采用1×1卷积来扩展特征图 的通道数。然后将特征沿着通道维度划分为 G 组 。组之间的特征交互以迭代方式进行。如图所示:
其中“CBRl−j ”为输入特征组 和第 个输出特征组的“Conv3 × 3-BN-ReLU”结构。 为CBR 单元的输入通道数 和输出通道数 。
第一组 在卷积块之后被拆分为三个特征集 。其中, 用于与下一组的信息进行交互,另外两个特征用于通道机制。在第 个(1 < j < G) 组中,特征组 与前一组的特征 组合后跟一个卷积块和一个分割操作,这同样将该特征组划分为三个特征集, 用于与下一组的信息进行交互,另外两个特征用于通道机制。
Channel-wise Modulation
最后将每一组操作后得到的两个特征图再次进行组合,得到 与 ,其中 通过卷积等操作后得到特征向量 并加权于另一个特征图 。
其中 、 和 分别表示激活层、归一化层和卷积层。
基于五个级联的HMU和几个堆叠的卷积层,得到了单通道的Logits映射。然后,通过Sigmoid函数生成突出显示伪装对象的最终置信度图P。
3. Loss Functions
由于COD数据的复杂性,如果仅在BCEL(binary cross entropy loss)下训练,模型在预测中会产生严重的模糊性和不确定性,并且无法准确捕获对象,这两者都会降低COD的可靠性。论文设计了一个不确定性感知损失(UAL)作为BCEL的辅助。
其中 是平衡系数
其中 和 为 与 , 和 :当前迭代数和迭代总数。
UAL 损失惩罚那些不确定性强的点, 预测值越接近0.5,关于像素属性的确定就越不确定。
Experiment
Implicit Motion Handling for Video Camouflaged Object Detection (SLT-Net)
ECCV2022
OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
在本文中,作者提出了OSFormer,这是第一个用于伪装实例分割(CIS)的一阶段Transformer框架。OSFormer基于两个关键设计。
首先,通过引入位置引导查询和混合卷积前馈网络,作者设计了一个位置感知Transformer(LST)来获取位置标签和实例感知参数。
其次,作者开发了一种从粗到精的融合(CFF),以合并来自LST编码器和CNN主干的不同上下文信息。耦合这两个组件使OSFormer能够有效地混合局部特征和长期上下文依赖,以预测伪装实例。
与两阶段框架相比,本文的OSFormer在不需要大量训练数据的情况下达到了41%的AP,并实现了良好的收敛效率。
Method
本文提出的OSFormer包括四个基本组件:
- 用于提取对象特征表示的CNN主干
- 利用全局特征和位置引导查询生成实例感知嵌入的位置感知Transformer(LST)
- 粗到细融合(CFF)用于集成多尺度低和高级别特征并产生高分辨率掩码特征
- 用于预测最终实例掩码的动态伪装实例归一化(DCIN)
CNN Backbone
给定输入图像 ,走着使用来自CNN主干的多尺度特征 (即ResNet-50)。为了降低计算成本,作者直接将最后三个特征映射()展平并连接成一个256个通道的序列 作为LST编码器的输入。对于 特征,将其作为高分辨率低层特征输入到CFF模块中,以捕获更多伪装的实例线索。
Location-Sensing Transformer
虽然transformer可以通过自注意力层更好地提取全局信息,但它需要大规模训练样本和高计算量。由于CIS的数据有限,本文的目标是设计一种高效的架构,可以更快地收敛并实现有竞争力的性能。在上图中,作者展示了本文的位置感知Transformer(LST)。
LST Encoder
给定输入特征 ,BC-FFN的过程可以公式化为:
其中, 是3×3卷积运算。总的来说,LST编码器层描述如下:
Location-Guided Queries
对象查询在transformer架构中起着关键作用,transformer架构用作解码器的初始输入,并通过解码器层实现输出嵌入。然而,vanilla DETR收敛缓慢的原因之一是对象查询是零初始化的。为此,作者提出了位置引导查询,该查询具有LST编码器的多尺度特征映射 的优势。值得注意的是,DETR中的每个查询都集中在特定的领域。受SOLO的启发,作者首先将恢复的特征映射 调整为 的形状,。然后,将调整大小的特征划分为 特征网格,并将其展平,以生成位置引导查询 , 。
在这种情况下,提出的位置引导查询可以利用不同位置的可学习局部特征来优化初始化,并有效地聚合伪装区域中的特征。与零初始化或随机初始化相比,该查询策略提高了transformer解码器中查询更新的效率,并加速了训练收敛。
LST Decoder
本文的LST解码器可以表示为:
Coarse-to-Fine Fusion
作为一种基于自底向上Transformer的模型,OSFormer利用LST编码器输出的多级全局特征,以产生共享掩码特征。为了合并不同的上下文信息,作者还融合了来自CNN主干的低级特征 作为补充,以生成统一的高分辨率特征映射 。粗到细融合(CFF)模块的详细结构如上图所示。将多级特征 、、和 作为级联融合的输入。
从输入尺度为1/32的 开始,通过3×3卷积、GN和2×双线性上采样,并添加更高分辨率特征(为1/16比例)。将1/4比例的 融合后,特征继续进行1×1卷积、GN和RELU操作,以生成掩码特征 。请注意,每个输入特征在第一次卷积后将通道从256个减少到128个,然后在最终输出时增加到256个通道。
考虑到伪装的边缘特征更难捕捉,作者设计了嵌入CFF的反向边缘注意(REA)模块,以在迭代过程中监督边缘特征。与之前的反向注意不同,本文的REA对边缘特征而不是预测的二进制掩码进行操作。此外,用于监督的边缘标签是通过实例掩码标签获得的,无需任何手动标记。
受卷积块注意的启发,输入特征由平均池化(AvgPool)和最大池(MaxPool)操作。然后,将它们concat并送到7×7卷积和sigmoid函数。然后,反转注意力权重,并将其与融合特征 进行元素乘法。最后,作者使用3×3卷积来预测边缘特征。假设输入特征为 ,每个REA模块的整个过程可以公式化如下:
其中, 表示7×7卷积层, 表示通道轴上的concat。所提出的CFF提供了共享掩码特征 ,然后送到DCIN中,以预测最终的伪装实例掩码。
Dynamic Camouflaged Instance Normalization
受样式迁移域中实例归一化操作的启发,作者引入了一种动态伪装实例归一化(DCIN)来预测最终掩码。当DCIN接收从LST解码器到输出嵌入 时,采用全连接层(FC)来获得位置标签。并行地,使用多层感知器(MLP)获得大小为D(即256)的实例感知参数。作者在训练阶段根据ground truth分配正位置和负位置。应用正位置的实例感知参数来生成分割掩码。
在测试阶段,作者利用位置标签的置信值来过滤(如上图所示)无效参数(例如,阈值>0.5)。随后,对滤波的位置感知参数操作两个线性层,以获得仿射权重 和偏差 。最后,它们与共享掩码特征一起使用来预测伪装实例,可以描述为:
其中 是预测的掩码。 是预测实例数。 是一个4倍的上采样操作。最后,应用矩阵NMS得到最终实例。
IJCAI2022
Boundary-Guided Camouflaged Object Detection (BGNet)
- 论文试图解决什么问题? 伪装物体的边界与背景之间的分界相当模糊并且难以区分, 不引入额外的先验信息很难精准的定位到伪装物体。并且,现有的方法往往无法分割出伪装物体的完整边界。
- 论文中提到的解决方案之关键是什么?
- 作者设计了一个边缘感知模块 (EAM),从高级语义特征以及包含边缘细节的低级特征中提取目标的边缘信息,用于缓解最终结果的边缘模糊问题。
- 作者设计了一个边缘引导特征模块(EFM),将来自 EAM 的边缘线索与每个级别的多级主干特征(f2-f5)集成,使之参与到后续 coarse to fine 的的解码中,从而增强边界表示。
- 作者设计了一个上下文聚合模块 (CAM), 利用多尺度之间的交互逐步聚合多级融合特征,最终得到伪装图。
- 这篇论文到底有什么贡献? 对于 COD 任务,作者提出了一种新的边界引导网络,即 BGNet,该网络挖掘和集成了边界相关的边缘语义,以提高伪装目标检测的性能。作者设计了边缘引导特征模块(EFM)和上下文聚合模块(CAM),以增强边界语义,并探索有价值和强大的特征表示。
- 下一步呢?有什么工作可以继续深入?
基于边缘的方法在定位小型伪装物体时,可能会定位错误。纹理 (TINet,DGNet) 可能比边缘能更好的定位到物体。下图为 TINet(AAAI 2022),DGNet 标注的纹理标签,以及 DGNet 的网络结构:
网络结构
- 作者选取了 ResNet-50 作为 backbone,提取出 5 层特征后,将 f_2 与 f_5 送入到边缘感知模块 (EAM) 中挖掘边缘信息,选择 f_2 与 f_5 是因为既可以利用 f_2 中保留的边缘细节信息,也可以利用 f_5 中的高级语义信息来抑制噪声。随后利用多个边缘引导聚合模块(EFM)将 EAM 模块提取的边缘特征与骨干网络提取的 f_2 -f_5 进行聚合,用于增强特征表示,最后利用多个上下文聚合模块(CAM)由粗到细的细化伪装图,选取最后一个阶段的 CAM 模块的输出作为最终预测结果。由于 f_1 中含有大量的噪声,因此,本文并未使用该层特征。
边缘感知模块 (EAM)
- EAM 模块的主要作用是为了给后续分割提供有价值的边缘先验,是网络能更好的分割伪装目标的边缘轮廓。低层特征中的噪声较多,因此,EAM 模块引入了高级语义特征作为辅助。
- 具体来说,就是先用 1x1 的卷积将 f_2 与 f_5 的通道数分别削减至 64(256->64),256(2048->256),将 f_2 上采样至与 f_5 相同的尺寸之后将两者 cat 起来。通过两个 3x3 的卷积进行融合,最后通过一个 1x1 的卷积和 sigmiod 函数得到边缘的预测图。EAM 是一个比较简单的模块,作者在消融实验中验证了它的有效性。此处边缘损失函数选取的为 dice loss(ECCV, 2020)。
边缘引导聚合模块(EFM)
- EFM 模块的作用是将边缘先验与 backbone 中提取的特征进行融合,作者采取的方式是先用乘法,随后连接一个残差的加法与 3x3 的卷积进行简单的融合。随后作者引入局部注意力机制,通过突出关键特征通道来增强融合的特征。
- 先通过全局均值池化获得每一个通道的均值,然后通过一个 1x1 的卷积去学习每个通道与其 k 个近邻之间的关系,将 1x1 卷积输出作为为每一个通道分配的权重,通过这种方式来实现对关键通道的重点关注。
上下文聚合模块(CAM)
- CAM 模块主要考虑了多尺度之间的交互,简单来说,将融合的特征沿着通道维度平均划分为四个特征映射,然后执行跨尺度交互学习,即通过一系列空洞卷积来集成相邻分支的特征以提取多尺度上下文特征。
定量对比:
可视化:
消融实验:
AAAI2023
MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection
Motivation
我们提出多视图特征融合网络(MFFN),它模仿人类在图像中寻找模糊对象的行为,即从多个角度、距离、视角进行观察。具体来说,其背后的关键思想是通过数据增强生成多种观察方式(多视图)并将它们用作输入。
Method
- Multi-view Generation
使用2组翻转+原图+2组resize。
数据增强的方案来自于消融实验:通过镜像变换获得的两个角度视图和通过resize操作获得的两个近距离视图的组合是一种有效的选择方案。我们的多视图策略可以很容易地转移到 SOD 任务中,并在 SOD 任务中取得出色的性能。
- Co-attention of Multi-view
其中 In-att 可写为:
其中 为张量的 Tucker 分解,以第 3 阶张量为例,假设 是大小为 的张量,进行 Tucker 分解后的表达式可以写成:
其中,张量 的大小为 ,也称为核心张量(core tensor),矩阵 的大小为 ,矩阵 的大小为 ,矩阵 的大小为 。
out-att 可写为:
- CFU
- Loss
其中:
Uncertainty perceived loss (UAL) 这个loss在 ZoomNet 中使用过。
Experiment
High-resolution Iterative Feedback Network for Camouflaged Object Detection
Motivation
我们的目标是提取高分辨率纹理细节,以避免导致边缘和边界视觉模糊的细节退化。我们引入了一种新颖的 HitNet,以迭代反馈的方式通过高分辨率特征细化低分辨率表示,本质上是多尺度分辨率之间基于全局循环的连接。此外,提出了一种迭代反馈损失,以对每个反馈连接施加更多约束。
HitNet 包括三个主要组件:基于 Transformer 的特征提取 (TFE)、多分辨率迭代细化 (RIR) 和迭代特征反馈 (IFF)。为了降低 HR 特征图的计算成本,我们采用 PVT 作为图像特征编码器,通过渐进式收缩金字塔和空间缩减注意力。然后,我们利用 RIR 模块通过全局和跨尺度反馈策略递归地细化从 TFE 中提取的 LR (Low Resolution) 特征。为了确保更好地聚合反馈特征,我们使用迭代特征反馈(IFF)对反馈特征流施加约束。
Method
Iterative Feedback Mechanism
网络中使用迭代的策略来细化预测的GT。
SOD 基本方法
Generative Transformer for Accurate and Reliable Salient Object Detection
I. Motivation
CNN存在的问题:深层网络的大感受野是通过牺牲结构信息来获得的,因此需要设计复杂的decoder来"尝试"恢复。
而对于Vision Transformer而言,位置编码在建模准确的空间信息方面存在局限,不适合密集预测任务。
II. Network Architecture
III. Transformer Encoder
Encoder所用的backbone为Swin Transformer。类似于CNN中的backbone,其也可以生成五个尺度下的特征,记做 ,其中每个特征具有相同的通道数量,即256。每级特征的下采样率分别为1/4、1/8、1/16和1/32。
我们将 向上采样到相同的空间大小,即原始图像大小的四分之一。然后,我们将它们连接起来,得到通道大小为 的新的特征映射 。将 馈送到 RCA 模块以获得相同大小的 , 然后使用一个3×3卷积层将 映射到单通道图 .