ISDNet: Integrating Shallow and Deep Networks for Efficient Ultra-high Resolution Segmentation 论文阅读
date
Mar 18, 2023
Last edited time
Mar 27, 2023 08:23 AM
status
Published
slug
ISDNet论文阅读
tags
DL
CV
summary
转载 没啥用
type
Post
Field
Plat
Title: ISDNet: Integrating Shallow and Deep Networks for Efficient Ultra-high Resolution SegmentationPaper: https://openaccess.thecvf.com/content/CVPR2022/papers/Guo_ISDNet_Integrating_Shallow_and_Deep_Networks_for_Efficient_Ultra-High_Resolution_CVPR_2022_paper.pdfCode: https://github.com/cedricgsh/ISDNet
导读
超高分辨率图像分割是一个具备现实意义的问题,在医疗影像、自动驾驶、遥感图像上均有广泛的应用场景。以往的方法大都遵循
global-local refinement pipeline
的模式,即将大分辨率图像进行切块再训练。此类方法虽然可以在一定程度上降低内存要求,但不可避免的会消耗过多的计算资源,从而导致推理速度急剧下降!为此,本文围绕
memory
和 computation
的角度提出了一种新颖的超高分辨率分割框架——ISDNet
,它以一种崭新的方式整合了浅层和深层网络,在实现准确分割的同时显着加快了推理速度。此外,为了进一步利用浅层和深层特征之间的关系,作者进一步提出了一种高效的关系感知特征融合模块,以确保整体框架的稳健性。最后,在
Deepglobe
、Inria Aerial
和 Cityscapes
数据集上进行的大量实验表明,所提方法表现强劲。特别地,在 Deepglobe 上以 27.70 FPS 的速度达到了 73.30 mIoU,相比最新 SOTA 速度提高了 172 倍!动机
快速回顾下历届顶会上对于超大分辨率图像分割的处理方法:
GLNet[1]
GLNet 提出了一种协作的全局 - 局部框架,通过结合全局分支的上下文和局部分支的细节来改进分割结果。
PPN[2]
基于 GLNet,PPN 进一步提出了一个分类分支来选择重要的局部补丁与全局图像融合。
CascadePSP[3]
CascadePSP 采用通用级联结构在全局和局部细化粗分割图。
MagNet[4]
MagNet 引入了一种新颖的多尺度架构,通过 coarse-to-fine 不断细化特征。
FCtL[5]
FCtL 利用局部感知上下文相关性和自适应特征融合方案,关联和组合局部上下文信息以加强局部分割。
从处理方法来看,上述超高分辨率分割方法大都是将输入图像裁剪成面向低 GPU 内存的 Patch,这导致冗余计算和非常慢的推理速度。相比之下,在没有裁剪补丁的情况下,本文方法通过集成浅层和深层网络直接处理全尺寸和下采样输入,从而显着加快推理速度。
其次,让我们比较下不同的超高分辨率图像分割方案:
- 方案 (a) 直接一步到位设计一个轻量级模型架构以适应大规模图像;
- 方案 (b) 是间接采用多个局部补丁细化的全局推理;
- 方案 (c) 则是本文方法,通过整合浅层和深层网络来输入整个和下采样图像。
总的来说,本文方法的目标是在超高分辨率分割的准确性、内存和推理速度之间实现更好的平衡。ISDNet 框架本质上是一个集成浅层和深层的双边网络。不过,不同于典型的双边模型将浅层和深层分支结合用于相同输入以分别对空间和上下文特征进行建模,而是为浅层和深层分支输入不同规模的输入。
方法
Framework
上图为 ISDNet 的整体框架图,其包含两个容量不同的特征提取器,主要用于解决超高分辨率分割方法的效率问题。其中,深度网络采用下采样图像来提取高级语义信息,而浅层网络直接处理具有增强空间细节的全尺寸输入。此外,引入了一个新的特征融合模块以根据它们的关系融合这些分支。最后,通过采用辅助分割和超分辨率任务来为深度分支学习更好的特征。
Relation-Aware feature Fusion
上图为关系感知特征融合模块 (
Relational-Aware feature Fusion
, RAF
) 的示意图。其中,蓝色和红色分别代表深浅分支输出的特征图。以往方法大都是直接采用 Concat
和 Add
方法来融合来自不同分支的特征或者应用注意力机制来重新加权不同的通道,分别为每个特征映射。然而,假设来自深分支和浅分支的特征对特征融合的贡献相同是不合理的。因此,RAF 模块的做法便是利用浅层特征(详细空间信息)和深层特征(高级语义信息)之间的关系动态的融合不同分支下的特征信息。Loss Functions
以下是 ISDNet 方法整体的损失函数定义:
$$\mathcal{L} = \mathcal{L}_{SEG} + \lambda_{1}\mathcal{L}_{AUX} + \lambda_{2}\mathcal{L}_{SR} + \lambda_{3}\mathcal{L}_{SD} \\$$
其主要包含三大部分:
- 分割损失 (
Segmentation loss
)
- 超分辨率损失 (
Super-resolution loss
)
- 结构蒸馏损失 (
Structure distillation loss
)
其中,分割损失采用标准的交叉熵损失,而 ℒAUX 只是为辅助分割头加多一个监督信号;考虑到深度分支使用低分辨率图像作为输入,因此会产生噪声特征,尤其是在边界周围。因此,作者额外添加了一个超分辨率头来重建原始图像以学习更准确的表示;最后,由于在没有交互的情况下直接添加上述超分辨率任务带来的改进有限,本文从超分辨率头的最后一层提取结构信息加强超分辨率和语义分割任务之间的交互。
实验
上述表格展示了所提方法在两个广泛使用的超高分辨率图像分割数据集 DeepGlobe[6] 和 Inria Aerial[7] 以及主流的通用数据集 Cityscapes 上的与其他 SOTA 方法的定量分析结果。不难看出 ,ISDNet 不仅能够在多个数据集上以更少的推理时间实现了高精度,同时具有扩展现有分割模型的良好通用性。
以上可视化结果展示了相应的定性比较结果,充分展示了所提方法的良好的分割性能,能有效的捕捉细节。
总结
本文结合深浅层的双边网络设计了一种高效的超大分辨率图像分割方法——ISDNet,其包含了一个关系感知的特征融合模块,有效的利用了不同分支之间的关系信息。此外,为进一步增强浅层分支,采用高频残差作为输入来增强空间细节,同时引入了超分辨率损失和结构蒸馏损失来增强深层分支的特征。最终在三个主流数据集上的广泛实验充分论证了本文方法的有效性和高效性。