High Quality Segmentation for Ultra High-resolution Images 论文阅读

date

Mar 21, 2023

Last edited time

Mar 27, 2023 08:22 AM

status

Published

slug

High_Quality_Segmentation_for_Ultra_High-resolution_Images论文阅读

Abstract

Problem

在图像分割中，对于4K或6K超高分辨率图像需要额外的计算考虑。常见的策略如降采样、补丁裁剪和级联模型，无法很好地解决准确性和计算成本之间的平衡问题。

Method

我们提出了一种用于超高分辨率图像分割的连续细化模型（CRM）。CRM不断将特征图与细化目标对齐，并聚合特征以重构这些图像的细节。

为了实现超高分辨率分割细化的连续性，我们首先提出连续对齐模块（CAM），以连续方式对齐特征和细化目标（不同于在解码器中使用级联方案）。在CAM中，将特征和细化目标的坐标转换为连续空间。然后根据连续坐标对位置和特征进行对齐。一种隐式函数将位置信息和对齐的潜在图像特征结合起来，预测图像中查询像素的分割标签。在这里，像素级隐式函数建模了连续位置和预测之间的关系，并通过潜在特征实现了图像感知细化。

此外，低分辨率训练图像和超高分辨率测试图像之间存在分辨率差异。在基于级联解码器的方法中，卷积始终覆盖固定大小的邻域补丁，在训练分辨率下减少了对其他测试分辨率的泛化。然而，CRM中的隐式函数是在像素级别提取特征而没有这种偏差。此外，在我们的多分辨率推理策略中，首先对低分辨率输入进行推理。然后我们增加输入分辨率以生成更多细节的精细掩码。使用多分辨率推理策略，CRM实现了比 Cascade PSPNet 更强的泛化能力。

Method

General Framework

首先，将和拼接成，并由编码器表示为，如下式所示

其次，和位置信息通过 CAM 连续对齐，输出目标大小的特征，其中表示连接。

最终，经过基于隐式函数的解码器和特征聚合步骤，生成下面细化的掩码：

其中是 aligned point，表示的 supporting points 的集合，，是聚合权重（将和中的之间的框的面积值对称地交换，以为中心），是上的特征向量。

Continuous Alignment Module

我们注意到，具有预定义上采样率的基于级联的解码器中的离散方式可以被视为对上采样的约束，限制了进一步的改进并降低了通用性。此外，它增加了整个框架的复杂性，如图2所示。我们提出的连续对齐模块（CAM）利用位置信息和特征对齐来建模连续的深度特征。

💡

即 Cascade PSPNet 中使用离散的 mask 来表示分割

Position Information

位置信息是隐式函数的关键输入。将细化目标的坐标投影到特征图坐标上。此操作为不同分辨率特征图上的像素创建连续坐标，并显示了各种所需推理分辨率。

💡

Neural Radiance Fields 的输入包括场景中每个点的 3D 坐标和每个点的朝向。输出是该点的颜色和透明度，然后采样渲染出像素的颜色。

在投影后，上的点与其对应的最近的上的点之间的偏移量被表示为。在图3中，表示位置上的偏移量（蓝色箭头）。相对目标坐标偏移，特征和目标之间的比率以及细化的目标位置形成位置信息。

💡

没看明白…

Continuous Feature Alignment

细化目标位置被视为全局特征。然后，与位置信息一样，我们将细化目标中的每个像素与对齐。连续特征通过将位置信息和对齐的连接而成。离散预定义的上采样比率减少了学习难度，但限制了上采样过程。我们的CAM在这方面具有更大的自由度，这意味着更大的优化空间和更高的性能潜力。

Implicit Function in CRM

在CAM之后，隐式函数以作为输入。目标细化掩模上的查询点（图3中的蓝点）可以表示为，我们找到它的邻居点，（图3上的绿点），它们的位置是。接下来，在对齐的特征映射上选择的最近点，表示为（图3上的红点）。被用作的 support point，表示为。然后将的特征向量输入隐式函数。最后，我们汇总隐式函数的输出。汇总权重，即区域值，从相对坐标偏移中计算。最后的聚合输出是上的最终预测结果。