Comprehensive Multi-Modal Interactions for Referring Image Segmentation 论文阅读笔记
date
Oct 8, 2021
Last edited time
Mar 27, 2023 09:01 AM
status
Published
slug
Comprehensive_Multi-Modal_Interactions_for_Referring_Image_Segmentation论文阅读笔记
tags
DL
CV
NLP
summary
跟下面的那个一样
type
Post
Field
Plat
Background and motivation
- 当前 RIS(基于文本的语意分割) 的问题
当前的 Referring image Segmentation 存在一些限制, 即没有同时处理单词与单词之间的关系,图像中区域与区域之间的关系,以及视觉模态与自然语言模态之间的跨模式对其。
当前阶段的 RIS 方法基本都可以分为不同的阶段(sequential interaction). 这些方法的问题在于他们在不同的阶段模拟不同形式的交互,因此前一阶段带来的误差将会影响后来阶段的表现。
- 当前存在的类似方法
- Semantic Segmentaton - 语意分割 RIS 是对这种方法的变体, 使用自然语言来替代预定义的目标对象类别
- Referring Expression Comprehension - 基于自然语言的语意分割
- Refferin Image Segmentation
使用边界框来标定语言表述的目标物体
由于 REC 捕捉目标物体的固有形状方面能力有限, 因此提出了 RIS.
这种方法使用CNN网络提取视觉特征,使用LSTM网络提取自然语言特征
但现有的方法都是在不同阶段单独处理模式间和模式内的交互. 而这篇文章提出的RIS方法, 则是同时进行交互.
Method
- JR-Net 的组成部分
- Feature Extraction - 特征提取
- 输入: 图像与自然语言特征
- JRM Joint Reasoning Modules(联合推理模块)
- 目的
- 方式
- 具体操作方式
- CMMLF Cross-Modal Multi-Level Fusion(跨模式多层次融合)
- 目的
- 步骤
- Hierarchical Cross-Modal Exchange (分层跨模式交换)
- Hierarchical Aggregation (分层聚合)
- 分层跨模式交换
- 分层聚合
使用 CNN 获取分级图像特征,
先使用词嵌入来初始化每一个词, 使用 LSTM 提取语言特征 , t 是表达式词的数量
图像特征与自然语言特征 V 和 L 的维度是相同的,因为需要在之后的JRM模块,对他们进行位置编码后,进行拼接
identifying region-region, word-word, and region-word pairs with similar contextual information
将 JRM 模块建模为一个 multi-modal transformer encoder 来捕捉视觉与自然语言的模态间与模态内的相互作用
对 和 进行位置编码后再 concact 之后, 应用多头注意力机制再通过MLP得到层次化的跨模态输出
为了精确预测目标对象的mask, 需要有效的汇总来自所有层次的相关上下文信息
其输入为多模态特征 , 分别得到 ,(视觉特征, 语言特征). 沿长度平均后得到 , 然后与其不同层的 进行连接, 卷积得到 .
指第 层的图像特征与第 层的自然语言特征进行跨模式交换后得到的结果.这样, 对于每一层视觉与自然语言的特征的排列组合都进行了跨模式交换.
对于每一层的视觉特征, 和其他层次的交换特征 进行融合, 最终得到 (人的最终多模态语境). 然后通过 ASPP 和上采样卷积得到最后的分割掩码.
Result
JRNet 在三者数据集上取得了最先进的性能, 二无需任何后处理.
JRNet 能够对严重遮挡的物体进行定位, 对高度模糊的语句能够很好的理解. 具有相对位置的推理能力.