Comprehensive Multi-Modal Interactions for Referring Image Segmentation 论文阅读笔记

date

Oct 8, 2021

Last edited time

Mar 27, 2023 09:01 AM

status

Published

slug

Comprehensive_Multi-Modal_Interactions_for_Referring_Image_Segmentation论文阅读笔记

当前的 Referring image Segmentation 存在一些限制, 即没有同时处理单词与单词之间的关系，图像中区域与区域之间的关系，以及视觉模态与自然语言模态之间的跨模式对其。

当前阶段的 RIS 方法基本都可以分为不同的阶段(sequential interaction). 这些方法的问题在于他们在不同的阶段模拟不同形式的交互，因此前一阶段带来的误差将会影响后来阶段的表现。

使用边界框来标定语言表述的目标物体

由于 REC 捕捉目标物体的固有形状方面能力有限, 因此提出了 RIS.

这种方法使用CNN网络提取视觉特征，使用LSTM网络提取自然语言特征

但现有的方法都是在不同阶段单独处理模式间和模式内的交互. 而这篇文章提出的RIS方法, 则是同时进行交互.

使用 CNN 获取分级图像特征,

先使用词嵌入来初始化每一个词, 使用 LSTM 提取语言特征 , t 是表达式词的数量

图像特征与自然语言特征 V 和 L 的维度是相同的，因为需要在之后的JRM模块，对他们进行位置编码后，进行拼接

identifying region-region, word-word, and region-word pairs with similar contextual information

将 JRM 模块建模为一个 multi-modal transformer encoder 来捕捉视觉与自然语言的模态间与模态内的相互作用

对和进行位置编码后再 concact 之后, 应用多头注意力机制再通过MLP得到层次化的跨模态输出

为了精确预测目标对象的mask, 需要有效的汇总来自所有层次的相关上下文信息

其输入为多模态特征 , 分别得到 ,(视觉特征, 语言特征). 沿长度平均后得到 , 然后与其不同层的进行连接, 卷积得到 . 指第层的图像特征与第层的自然语言特征进行跨模式交换后得到的结果.这样, 对于每一层视觉与自然语言的特征的排列组合都进行了跨模式交换.

对于每一层的视觉特征, 和其他层次的交换特征进行融合, 最终得到 (人的最终多模态语境). 然后通过 ASPP 和上采样卷积得到最后的分割掩码.

JRNet 在三者数据集上取得了最先进的性能, 二无需任何后处理.

JRNet 能够对严重遮挡的物体进行定位, 对高度模糊的语句能够很好的理解. 具有相对位置的推理能力.