Comprehensive Multi-Modal Interactions for Referring Image Segmentation 论文阅读笔记

date
Oct 8, 2021
Last edited time
Mar 27, 2023 09:01 AM
status
Published
slug
Comprehensive_Multi-Modal_Interactions_for_Referring_Image_Segmentation论文阅读笔记
tags
DL
CV
NLP
summary
跟下面的那个一样
type
Post
Field
Plat

Background and motivation

  • 当前 RIS(基于文本的语意分割) 的问题
    • 当前的 Referring image Segmentation 存在一些限制, 即没有同时处理单词与单词之间的关系,图像中区域与区域之间的关系,以及视觉模态与自然语言模态之间的跨模式对其。
      当前阶段的 RIS 方法基本都可以分为不同的阶段(sequential interaction). 这些方法的问题在于他们在不同的阶段模拟不同形式的交互,因此前一阶段带来的误差将会影响后来阶段的表现。
  • 当前存在的类似方法
    • Semantic Segmentaton - 语意分割 RIS 是对这种方法的变体, 使用自然语言来替代预定义的目标对象类别
    • Referring Expression Comprehension - 基于自然语言的语意分割
      • 使用边界框来标定语言表述的目标物体
    • Refferin Image Segmentation
      • 由于 REC 捕捉目标物体的固有形状方面能力有限, 因此提出了 RIS.
        这种方法使用CNN网络提取视觉特征,使用LSTM网络提取自然语言特征
        但现有的方法都是在不同阶段单独处理模式间和模式内的交互. 而这篇文章提出的RIS方法, 则是同时进行交互.

Method

  • JR-Net 的组成部分
      1. Feature Extraction - 特征提取
          • 输入: 图像与自然语言特征
          使用 CNN 获取分级图像特征,
          先使用词嵌入来初始化每一个词, 使用 LSTM 提取语言特征 , t 是表达式词的数量
          图像特征与自然语言特征 V 和 L 的维度是相同的,因为需要在之后的JRM模块,对他们进行位置编码后,进行拼接
      1. JRM Joint Reasoning Modules(联合推理模块)
          • 目的
            • identifying region-region, word-word, and region-word pairs with similar contextual information
          • 方式
            • 将 JRM 模块建模为一个 multi-modal transformer encoder 来捕捉视觉与自然语言的模态间与模态内的相互作用
          • 具体操作方式
            • notion image
              进行位置编码后再 concact 之后, 应用多头注意力机制再通过MLP得到层次化的跨模态输出
      1. CMMLF Cross-Modal Multi-Level Fusion(跨模式多层次融合)
        1. notion image
          • 目的
            • 为了精确预测目标对象的mask, 需要有效的汇总来自所有层次的相关上下文信息
          • 步骤
              1. Hierarchical Cross-Modal Exchange (分层跨模式交换)
              1. Hierarchical Aggregation (分层聚合)
          • 分层跨模式交换
            • 其输入为多模态特征 , 分别得到 ,(视觉特征, 语言特征). 沿长度平均后得到 , 然后与其不同层的 进行连接, 卷积得到 . 指第 层的图像特征与第 层的自然语言特征进行跨模式交换后得到的结果.这样, 对于每一层视觉与自然语言的特征的排列组合都进行了跨模式交换.
          • 分层聚合
            • 对于每一层的视觉特征, 和其他层次的交换特征 进行融合, 最终得到 (人的最终多模态语境). 然后通过 ASPP 和上采样卷积得到最后的分割掩码.

Result

JRNet 在三者数据集上取得了最先进的性能, 二无需任何后处理.
JRNet 能够对严重遮挡的物体进行定位, 对高度模糊的语句能够很好的理解. 具有相对位置的推理能力.

© Lazurite 2021 - 2023