基于超大尺寸图像的语义分割论文和代码汇总

date

Mar 22, 2023

Last edited time

Mar 22, 2023 11:27 AM

status

Published

slug

基于超大尺寸图像的语义分割论文和代码汇总

2019

Collaborative Global-Local Networks for Memory-Efficient Segmentation of Ultra-High Resolution Images

code: https://github.com/VITA-Group/GLNet

摘要：超高分辨率图像的分割要求越来越高，但对算法效率带来了重大挑战，特别是考虑到 (GPU) 内存限制。目前的方法要么对一个超高分辨率的图像进行降采样，要么将其裁剪成小块进行单独处理。无论哪种方式，局部细节或全局上下文信息的丢失都会导致有限的分割精度。我们提出了协作的全局本地网络(GLNet)，以一种高内存效率的方式有效地保存全局和本地信息。GLNet 由一个全局分支和一个局部分支组成，分别将降采样的整个图像及其裁剪后的局部斑块作为各自的输入。在分割方面，GLNet 深度融合了来自两个分支的特征映射，从放大的局部补丁中捕获高分辨率的精细结构，并从降采样的输入中捕获上下文依赖关系。为了进一步解决背景区域和前景区域之间潜在的类不平衡问题，我们提出了一个从粗到细的 GLNet 变体，它也具有内存效率。在三个真实世界的超高空中和医学图像数据集（分辨率高达 3000 万像素）上进行了广泛的实验和分析。由于仅使用了一个 1080TiGPU 和不到 2GB 的内存，我们的 GLNet 产生了高质量的分割结果，并与最先进的技术相比，实现了更具竞争力的精确内存使用权衡。

2020

CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement

CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement 论文阅读

https://lazurite.vercel.app/CascadePSP:%20Toward%20Class-Agnostic%20and%20Very%20High-Resolution%20Segmentation%20via%20Global%20and%20Local%20Refinement%20%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB

CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement 论文阅读

code: https://github.com/hkchengrex/CascadePSP

摘要：最先进的语义分割方法几乎只在一个固定的分辨率范围内的图像上进行训练。这些分割对于非常高分辨率的图像是不准确的，因为使用低分辨率分割的双边上采样不能充分捕捉沿物体边界的高分辨率细节。在本文中，我们提出了一种新的方法来解决高分辨率分割问题，而不使用任何高分辨率训练数据。关键的见解是我们的 CascadePSP 网络，它可以尽可能地细化和纠正局部边界。虽然我们的网络是用低分辨率的分割数据进行训练的，但我们的方法适用于任何分辨率，即使是对于大于 4K 的非常高分辨率的图像。我们对不同的数据集进行了定量和定性的研究，以表明 CascadePSP 可以使用我们的新的重新细化模块来揭示像素精确的分割边界，而不需要进行任何微调。因此，我们的方法可以看作是类不可知论者的。最后，我们演示了我们的模型在多类分割中的场景解析中的应用。

论文的贡献：

我们提出了 CascadePSP，这是一种一般的级联分割细化模型，它可以细化任何给定的输入分割，在不进行微调的情况下提高了最先进的分割模型的性能。

我们进一步表明，我们的方法可以用于产生高质量和非常高分辨率的分割，这是以前基于深度学习的方法从未实现过的。

我们引入了一个大的数据集，它可以作为一个非常高分辨率的语义图像分割任务的准确的评估数据集。

Patch Proposal Network for Fast Semantic Segmentation of High-Resolution Images

摘要：尽管近年来高分辨率图像的分割取得了研究进展，但仍存在一个未解决的问题，即分割精度、内存资源和推理速度之间的权衡。到目前为止，GLNet 被引入用于高分辨率或超分辨率的图像分割，这降低了分割网络的计算内存。但是，它忽略了不同裁剪补丁的重要性，并将平贴补丁与整个图像平等地进行融合，导致计算成本较高。为了解决这一问题，本文引入了一种斑块建议网络 (PPN)，自适应地将关键斑块与琐碎补丁区分开来，与整个图像融合进行细化分割。PPN 是一种分类网络，它减轻了网络训练的负担，提高了分割的精度。我们进一步将 PPN 嵌入到一个全局局部分割网络中，指示全局分支和重新细化分支协同工作。我们在四个图像数据集上实现了我们的方法：深度地球、ISIC、CRAG 和城市景观，前两个是超分辨率图像数据集，后两个是高分辨率图像数据集。实验结果表明，与现有的分割方法相比，该方法几乎取得了最好的分割性能，在深度球上的推理速度为 12.9fps，在 ISIC 上为 10fps。此外，我们将 PPN 嵌入到一般语义分割网络中，并对包含更多对象类的城市景观的实验结果证明了其对一般语义分割的泛化能力。

论文的贡献：在本文中，我们提出了一种具有更好的分割性能和快速速度的优雅和高效的解决方案。从 FasterRCNN(Renetal.2015) 中借鉴，我们设计了一个补丁建议子网络 (PPN)，这是一个二元分类网络，旨在区分重要的补丁和琐碎的补丁。换句话说，PPN 选择包含对象边缘或需要细化的细节的补丁，而补丁只包含容易被忽略的背景或平面区域。我们进一步将 PPN 嵌入到一个全局 - 本地网络中，该网络包含一个全局分支和一个细化分支，名为 GRNet。与 GLNet 不同的是，我们将更多的计算资源分配给更重要的补丁，从而避免了琐碎补丁的时间消耗。此外，我们只融合了全局和局部特征映射一次。

PPN 旨在从琐碎的补丁中选择重要的补丁。PPN 是一个具有优雅的判别规则的分类网络。它减轻了网络训练的负担，提高了分割效果。

我们将 PPN 嵌入到一个全局细化网络 (GRNet) 中，用于 HRI 或 URI 的语义分割，并使用 PPN 来指导全局分支和细化分支协同工作。

在 3 个公共高分辨率数据集：深度全球、ISIC 和 CRAG 上，与最先进的方法相比，它取得了最好的性能。特别是，我们的方法在 DeepGlobe 数据集上的 GPU 上达到 12.9fps，因此，它在速度和精度上都是一种实用的分割方法。

PPN 具有良好的泛化能力。它可以轻松而直接地集成到其他流行的语义分割框架中。PPN 提高了基线语义分割网络的分割性能。

2021

Progressive Semantic Segmentation(CVPR)

code : https://github.com/VinAIResearch/MagNet

摘要：这项工作的目的是分割高分辨率的图像，而不超载 GPU 内存的使用或丢失输出分割地图中的细节。内存约束意味着我们要么必须对大图像进行降采样，要么将图像分割成局部补丁以进行单独处理。然而，前一种方法将失去细节，而后者可能由于缺乏全球图景而模棱两可。在这项工作中，我们提出了磁铁，一个多尺度的框架，通过观察在多个放大水平上的图像来解决局部模糊性。磁铁有多个处理阶段，其中每个阶段对应一个放大级别，并将一个阶段的输出输入下一个阶段，进行粗到细的信息传播。每个阶段以比前阶段更高的分辨率分析图像，恢复之前由于有损降采样步骤而丢失的细节，并通过处理阶段逐步细化分割输出. 在城市景观、空中场景和医学图像的三个高分辨率数据集上进行的实验表明，磁铁的性能始终显著优于最先进的方法。

Rich CNN Features for Water-Body Segmentation from Very High Resolution Aerial and Satellite Imagery

摘要：从非常高的分辨率 (VHR) 遥感图像中准确地提取水体是一个巨大的挑战。由于水生植被造成的复杂的光谱混合物、独特的湖 / 河流颜色、河岸附近的淤泥、周围高大植物的阴影等，水体的边界通常难以识别。为了更好地从 VHR 遥感图像中提取水体，需要增加特征的多样性和语义信息。本文通过设计一种新的多特征提取和组合模块来解决这些问题。该模块由三个基于每个尺度上特征图中的空间和信道相关性的特征提取子模块组成，从局部空间、较大的空间和信道间关系中提取完整的目标信息，实现丰富的特征表示。同时，为了更好地预测水体的精细轮廓，我们采用了多尺度预测聚变模块。此外，为了解决编码阶段和解码阶段之间特征融合的语义不一致问题，我们采用了一个编码器 - 解码器语义特征融合模块来促进融合效果。我们分别在 VHR 空中图像和卫星图像上进行了广泛的实验。结果表明，我们的方法达到了最先进的分割性能，超过了经典的和最近的方法。此外，我们提出的方法在具有挑战性的水体提取场景中是鲁棒性的。

From Contexts to Locality: Ultra-high Resolution Image Segmentation via Locality-aware Contextual Correlation(ICCV)

code: https://paperswithcode.com/paper/from-contexts-to-locality-ultra-high

摘要：超高分辨率图像分割的实际应用，近年来引起了越来越多的关注。在本文中，我们创新了广泛使用的高分辨率图像分割管道，即将超高分辨率图像分割成规则的斑块进行局部分割，然后将局部结果合并为高分辨率语义掩码。特别地，我们引入了一种新的基于局部感知上下文相关的分割模型来处理局部斑块，其中局部斑块与其各种上下文之间的相关性被联合和互补地用来处理变化较大的语义区域。此外，我们提出了一个上下文语义细化网络，该网络将局部分割结果与其上下文语义关联起来，因此在生成最终高分辨率掩模的过程中，具有减少边界伪影和细化掩模轮廓的能力。

UHRSNet: A Semantic Segmentation Network Specifically for Ultra-High-Resolution Images

摘要：语义分割是计算机视觉中的一项基本任务，但人们对超高分辨率 (UHR) 图像分割的研究却十分有限。由于 UHR 图像占用过多的内存，因此不能直接放入 GPU 中进行训练。以前的方法是将图像裁剪成小的斑块或对整个图像进行降采样。裁剪和降采样会导致上下文和细节的丢失，这对分割精度至关重要。为了解决这一问题，我们在以往的工作中改进和简化了局部和全局特征融合方法。从斑块中提取局部特征，从降采样图像中提取全局特征。同时，我们首次提出了一种新的融合方法，即局部特征融合，它可以使斑块从周围的斑块中获取信息。我们将具有这两种融合的网络称为超高分辨率分割网络(UHRSNet)。这两种融合可以有效地解决种植和降采样引起的问题。实验表明，在深地球数据集上有了显著的改进。

论文的贡献： (i) 我们改进了全局和局部特征融合方法，使其更高效和方便。改进的融合方法只需要一次性融合就可以获得类似的结果。(ii). 我们首次提出了一种被称为局部特征融合的融合方法，它可以使得斑块从周围斑块中获取信息。局部特征融合在本质上与之前的融合方法不同，可以使结果更好、更稳定。(iii). 我们在深度地球数据集上通过这两种融合方法取得了显著的改进。

2022

Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images

code: https://paperswithcode.com/paper/looking-outside-the-window-wider-context

摘要：远程上下文信息对于高分辨率 (HR) 遥感图像 (RSIs) 的语义分割至关重要。然而，通常用于训练神经网络的图像裁剪操作限制了大型 rsi 中对随机上下文的感知。为了克服这一限制，我们提出了一种宽上下文网络 (WiCoNet) 用于 HRRSIs 的语义分割。除了用传统的 CNN 提取局部特征外，WiCoNet 还有一个额外的上下文分支来从更大的图像区域聚合信息。此外，我们还引入了一个上下文转换器来嵌入来自上下文分支的上下文信息，并选择性地将其投影到局部特征上。上下文变换器扩展了视觉变换器，一种新兴的神经网络，以建模双分支语义相关性。它克服了 cnn 的局部性限制，使 WiCoNet 在分割土地覆盖 / 土地利用 (LCLU) 类之前能够看到更大的图像。在几个基准数据集上进行的消融研究和比较实验证明了该方法的有效性。此外，我们提出了一个新的北京土地利用 (BLU) 数据集。这是一个具有高质量和细粒度参考标签的大规模 HR 卫星数据集，有助于该领域的未来研究。

论文的贡献：

1）提出了一种用于 HRrsi 语义分割的宽上下文网络 (WiCoNet)。WiCoNet 包括两个 cnn，它们分别从局部和全局图像级别中提取特征。这使得 WiCoNet 可以同时考虑局部细节和考虑宽上下文；

提出一个上下文转换器来建模双分支语义依赖关系。上下文转换器将双分支 CNN 特征嵌入到扁平的标记中，并通过跨局部和上下文标记的重复注意操作来学习上下文相关性。因此，投影的局部特征知道广泛的上下文信息；

3)提出一个基准数据集 (即北京 LandUse(BLU) 数据集)，用于 RSIs 的语义分割。这是一个根据土地利用类型标注的人力资源卫星数据集。我们相信，这个数据集的发布可以极大地促进未来的研究。

SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation

code: https://paperswithcode.com/paper/segblocks-block-based-dynamic-resolution

摘要：分段块通过根据图像区域的复杂度动态调整图像区域的处理分辨率，降低了现有神经网络的计算成本。我们的方法将图像分割成低复杂度的块和降采样块，减少了操作的数量和内存消耗。利用强化学习方法训练一个选择复杂区域的轻量级策略网络。此外，我们还介绍了 CUDA 实现的几个模块来以块处理图像。最重要的是，我们的新 BlockPad 模块可以防止块边界上的特征不连续，同时控制内存消耗。我们在城市景观和辅助景观语义分割上的实验表明，与类似复杂度的静态基线相比，动态处理图像提供了比复杂性的权衡更好的准确性。例如，我们的方法将 SwiftNet-RN18 的浮点操作次数减少了 60%，并提高了 50% 的推理速度，而在城市景观上的 mIoU 精度仅降低了 0.3%。

节段块会根据图像区域的复杂性来调整它们的处理分辨率。一个轻量级的策略网络决定应该在高分辨率模式下处理哪些块。块采样模块根据策略分割图像和降采样块。在用我们定制的块块模块替换零填充后，得到的块表示可以经过典型的深度卷积网络的处理。

论文的贡献：

我们引入了基于动态块的动态卷积神经网络的概念，其中块根据其复杂性进行降采样，以降低其计算成本。此外，我们还为 PyTorch 提供了 CUDA 模块，以有效地实现基于块的方法。

我们用强化学习来训练策略网络，以选择复杂的区域进行高分辨率处理。

我们使用最先进的语义分割网络演示了我们的方法，并表明我们的方法减少了浮点操作 (flops) 的数量，提高了推理速度(FPS)，而 mIoU 的精度仅略有下降。我们的方法比复杂度相似的静态基线网络具有更好的精度。

ISDNet: Integrating Shallow and Deep Networks for Efficient Ultra-high Resolution Segmentation

code:

https://github.com/cedricgsh/ISDNet

摘要：计算和内存的巨大负担是超高分辨率图像分割的两个障碍。为了解决这些问题，之前的大部分工作都遵循全局 - 局部细化管道，它更关注内存消耗，但忽略了推理速度。与将大的图像分割成小的局部区域的管道相比，我们专注于直接推断整个图像。在本文中，我们提出了一种新的超高分辨率分割框架 ISDNet，它以一种新的方式集成了浅层和深度网络，显著加快了推理速度，同时实现了准确的分割。为了进一步利用浅层特征和深层特征之间的关系，我们提出了一种新的关系感知特征融合模块，它保证了该框架的高性能和鲁棒性。在深地球、Inria 航空和城市景观数据集上进行的广泛实验表明，我们的性能始终优于最先进的水平。具体来说，它在深地球上实现了 73.30mIoU，速度为 27.70FPS，比最近的竞争对手更准确，更快 172×。

High Quality Segmentation for Ultra High-resolution Images(CVPR)

code: https://paperswithcode.com/paper/high-quality-segmentation-for-ultra-high

High Quality Segmentation for Ultra High-resolution Images 论文阅读

没太懂

https://lazurite.vercel.app/High%20Quality%20Segmentation%20for%20Ultra%20High-resolution%20Images%20%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB

High Quality Segmentation for Ultra High-resolution Images 论文阅读

摘要：分割 4K 或 6K 超高分辨率图像在图像分割中需要额外的计算。常见的策略，如降采样、斑块裁剪和级联模型，都不能很好地解决精度和计算成本之间的平衡问题。基于人类从粗糙到精确的水平连续区分对象，我们提出了连续细化模型 (CRM) 用于超高分辨率分割细化任务。CRM 不断地将特征图与细化目标对齐，并聚合特征来重建这些图像的细节。此外，我们的 CRM 显示了其显著的泛化能力，以填补低分辨率训练图像和超高分辨率测试图像之间的分辨率差距。我们提出了定量的性能评估和可视化，以表明我们提出的方法是快速和有效的图像分割细化。

论文的贡献：

我们提出了一个通用的连续细化模型 (CRM)。在超高分辨率分割细化中，引入了一种利用连续位置信息和连续对齐潜在图像特征的隐式函数。在没有基于级联的解码器的情况下，我们有效地降低了计算成本，同时重建了更多的细节。

具有多分辨率推理的 •CRM 适用于使用低分辨率训练图像和超高分辨率测试图像。由于设计简单，即使从低分辨率细化到高分辨率，总推理时间也不到 CascadePSP[9] 的一半。

在实验中，CRM 对超高分辨率图像的分割效果最好。它还有助于提高最先进的全光学分割模型的性能，而没有微调。

基于超大尺寸图像的语义分割论文和代码汇总

Table of Contents

2019

Collaborative Global-Local Networks for Memory-Efficient Segmentation of Ultra-High Resolution Images

2020

CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement

Patch Proposal Network for Fast Semantic Segmentation of High-Resolution Images

2021

Progressive Semantic Segmentation(CVPR)

Rich CNN Features for Water-Body Segmentation from Very High Resolution Aerial and Satellite Imagery

From Contexts to Locality: Ultra-high Resolution Image Segmentation via Locality-aware Contextual Correlation(ICCV)

UHRSNet: A Semantic Segmentation Network Specifically for Ultra-High-Resolution Images

2022

Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images

SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation

ISDNet: Integrating Shallow and Deep Networks for Efficient Ultra-high Resolution Segmentation

High Quality Segmentation for Ultra High-resolution Images(CVPR)