High Quality Segmentation for Ultra High-resolution Images 论文阅读
date
Mar 21, 2023
Last edited time
Mar 27, 2023 08:22 AM
status
Published
slug
High_Quality_Segmentation_for_Ultra_High-resolution_Images论文阅读
tags
DL
CV
summary
没太懂
type
Post
Field
Plat
AbstractMethodGeneral FrameworkContinuous Alignment ModulePosition InformationContinuous Feature AlignmentImplicit Function in CRMTraining and Inference StrategyExpResultAblation
Abstract
- Problem
在图像分割中,对于4K或6K超高分辨率图像需要额外的计算考虑。常见的策略如降采样、补丁裁剪和级联模型,无法很好地解决准确性和计算成本之间的平衡问题。
- Method
我们提出了一种用于超高分辨率图像分割的连续细化模型(CRM)。CRM不断将特征图与细化目标对齐,并聚合特征以重构这些图像的细节。
为了实现超高分辨率分割细化的连续性,我们首先提出连续对齐模块(CAM),以连续方式对齐特征和细化目标(不同于在解码器中使用级联方案)。在CAM中,将特征和细化目标的坐标转换为连续空间。然后根据连续坐标对位置和特征进行对齐。一种隐式函数将位置信息和对齐的潜在图像特征结合起来,预测图像中查询像素的分割标签。在这里,像素级隐式函数建模了连续位置和预测之间的关系,并通过潜在特征实现了图像感知细化。
此外,低分辨率训练图像和超高分辨率测试图像之间存在分辨率差异。在基于级联解码器的方法中,卷积始终覆盖固定大小的邻域补丁,在训练分辨率下减少了对其他测试分辨率的泛化。然而,CRM中的隐式函数是在像素级别提取特征而没有这种偏差。此外,在我们的多分辨率推理策略中,首先对低分辨率输入进行推理。然后我们增加输入分辨率以生成更多细节的精细掩码。使用多分辨率推理策略,CRM实现了比 Cascade PSPNet 更强的泛化能力。
Method
General Framework
首先,将 和 拼接成 ,并由编码器 表示为 ,如下式所示
其次, 和位置信息 通过 CAM 连续对齐,输出目标大小的特征 ,其中 表示连接。
最终, 经过基于隐式函数的解码器 和特征聚合步骤,生成下面细化的掩码 :
其中 是 aligned point, 表示 的 supporting points 的集合,, 是聚合权重(将 和 中的 之间的框的面积值对称地交换,以 为中心), 是 上 的特征向量。
Continuous Alignment Module
我们注意到,具有预定义上采样率的基于级联的解码器中的离散方式可以被视为对上采样的约束,限制了进一步的改进并降低了通用性。此外,它增加了整个框架的复杂性,如图2所示。我们提出的连续对齐模块(CAM)利用位置信息和特征对齐来建模连续的深度特征。
即 Cascade PSPNet 中使用离散的 mask 来表示分割
Position Information
位置信息是隐式函数的关键输入。将细化目标 的坐标投影到特征图坐标 上。此操作为不同分辨率特征图上的像素创建连续坐标,并显示了各种所需推理分辨率。
Neural Radiance Fields 的输入包括场景中每个点的 3D 坐标 和每个点的朝向 。输出是该点的颜色和透明度,然后采样渲染出像素的颜色。
在投影后, 上的点与其对应的最近的 上的点之间的偏移量被表示为 。在图3中, 表示位置 上的偏移量(蓝色箭头)。相对目标坐标偏移 ,特征和目标之间的比率 以及细化的目标位置 形成位置信息 。
没看明白…
Continuous Feature Alignment
细化目标位置 被视为全局特征。然后,与位置信息一样,我们将细化目标中的每个像素与 对齐。连续特征 通过将位置信息 和对齐的 连接而成。离散预定义的上采样比率减少了学习难度,但限制了上采样过程。我们的CAM在这方面具有更大的自由度,这意味着更大的优化空间和更高的性能潜力。
Implicit Function in CRM
在CAM之后,隐式函数 以 作为输入。目标细化掩模上的查询点(图3中的蓝点)可以表示为 ,我们找到它的邻居点 ,(图3上的绿点),它们的位置是 。接下来,在对齐的特征映射上选择 的最近点,表示为 (图3上的红点)。 被用作 的 support point,表示为 。然后将 的特征向量 输入隐式函数 。最后,我们汇总隐式函数的输出。汇总权重,即区域值 ,从相对坐标偏移 中计算。最后的聚合输出是 上的最终预测结果。
Training and Inference Strategy
我们遵循 CascadePSP 的设置,由提供的地面真实掩模 进行形态扰动生成。我们设计了一个简单的训练损失,针对最终预测 ,而不是在不同分辨率阶段上使用不同的损失函数。
其中 ,其中 ,表示交叉熵损失、 损失、 损失和梯度损失。