Probabilistic Embedding - Part 1
date
Oct 3, 2023
Last edited time
Oct 3, 2023 06:35 AM
status
Published
slug
Probabilistic Embedding - Part 1
tags
Linux
summary
type
Post
origin
Field
Plat
(CVPR2021-PCME)Probabilistic Embeddings for Cross-Modal Retrieval(CVPR2023)MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model(ICLR2022-DSU)UNCERTAINTY MODELING FOR OUT-OF-DISTRIBUTION GENERALIZATION
(CVPR2021-PCME)Probabilistic Embeddings for Cross-Modal Retrieval
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fc05d4c7a-fa18-4a26-896c-bd5b19775ec3%2FUntitled.png?table=block&id=bbf8b89d-f6bd-44e3-816f-682ca2574b25&cache=v2)
在本文中,我们认为确定性函数不能充分捕获到多种对应关系。相反,我们提出使用全概率交叉模态嵌入(PCME,概率跨模态嵌入),其中不同模态状态的样本在共同嵌入空间中表示为概率分布。
鉴于来自不同模态的查询和数据库,跨模态检索是检索与查询最相关的数据库项目的任务。通常,方法估计嵌入函数,将视觉和文本输入映射到共享嵌入空间,从而将跨模态检索任务归结为欧几里德空间中熟悉的最近邻检索任务。然而,共同表示必须处理这样一个事实,即一个图像可能与多个不同的描述相匹配。相反,给定一段描述,可能会有多个视觉形式的描述的表现形式。总之,需要建立一个用于图像和文本模式的共同表示空间,以建模个体的一对多映射。
依赖于常规函数的标准方法不能满足这一必要条件:它们只能量化一对一的关系。在这项工作中,我们提出了概率跨模态嵌入(PCME)。我们认为概率映射是一种有效的表示工具,它不需要像基于检测的方法那样显着地进行配对多表示,并且还提供了许多表示工具优点。首先,PCME提供了估计的不确定性,可以用于估计查询的开销或丢失的机会等有用的应用程序。其次,概率表示可以导致更丰富的嵌入空间,其中集合合代数是有意义的第三,PCME对确定性搜索系统具有互补性。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F56b984ef-29c5-4703-81c6-2002905a243b%2FUntitled.png?table=block&id=e85c424e-f093-48fe-8f63-a74279887331&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fe29b5eec-66fc-464a-a594-647fc18ba8c4%2FUntitled.png?table=block&id=64d9c477-5501-4b0c-8831-6b01f1655c89&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F08873adb-66ad-461f-bc92-8d47736a7e16%2FUntitled.png?table=block&id=18663e15-0858-4fa5-91fe-b32751a6a589&cache=v2)
(CVPR2023)MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fca59e405-cd25-4595-a329-b7d4e70ac6ed%2FUntitled.png?table=block&id=e64e7850-8519-466c-a34e-eeb8ba8b13d5&cache=v2)
对于两个模态的输入,先使用两个编码器得到两个概率分布。然后使用修改版(概率分布版)的对比学习对齐两个分布。这两个概率分布继续通过特征交互,最后完成D-ITM, D-MLM任务进行预训练。
在本文中,我们通过利用序列级交互,将所有模态的表示投影为概率分布,通过概率分布编码器(Probability Distribution Encoder,简 称PDE)来建模这种不确定性。应用高斯分布是用于在表示空间中建模不确定性的突出方法之一。然而,在这些方法中,获得的不确定性取决于个体特征,而不是考虑整个特征之间的内在联系。为了利用这种联系,我们在用概率分布编码器(Probability Distribution Encoder,PDE) 表述不确定性时隐含地对其进行建模。受到自注意机制的启发,我们在构建分布表示时,进一步添加了文本令牌和图像补丁之间的相互作用,以捕捉更多的信息。在图 1 (e) 中,我们提供了两种不同类型的表示来描述语言的不确定性,其中分布表示能够表达比传统的点表示更丰富的语义关系。分布方差衡量了对 应文本的不确定性。作为副产品,分布表示实现了多 样的生成,通过随机抽样提供多个合理的预测。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fa034146d-b46c-4e84-aa0c-d7417280289c%2FUntitled.png?table=block&id=3de4d9c0-725c-4f9e-a4d8-c5ad5d00d0c5&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F4165661f-b301-4a97-9ebd-fc5c8d37cbd2%2FUntitled.png?table=block&id=8075d38d-6a01-4b70-8f11-befa67d8b46f&cache=v2)
具体而言,PDE预测每个输入 特征的均值向量(μ)和方差向量(σ2)。我们提出了基于分布的视觉-语言对比学习方法, 称为 D-VLC,以在融合之前实现粗粒度语义对齐的总体单模态分布表示。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fb1a03bec-6c79-405d-9511-4dd6cb318523%2FUntitled.png?table=block&id=bea25b5c-0191-4010-b4fd-7ef790e325ab&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F095cf2ef-1935-46d6-902d-2a1c80f9064c%2FUntitled.png?table=block&id=3c6bae17-9c90-4824-9b40-b0c72f6d0ce5&cache=v2)
- 如何融合使用?
where , are mean vectors of vision and language
[CLS]
distributions. , are sample points and is the DITM classifier.![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F957af480-666e-4122-a40c-70c78e89df51%2FUntitled.png?table=block&id=f319b87d-7a0b-40ea-882b-e8c7837816c3&cache=v2)
(ICLR2022-DSU)UNCERTAINTY MODELING FOR OUT-OF-DISTRIBUTION GENERALIZATION
虽然在各种视觉任务中取得了显著进展,但深度神经网络在在分布场景外 进行测试时仍然存在明显的性能下降问题。我们认为,特征统计量(均值 和标准差)承载着训练数据的域特征,可以通过适当操作来提高深度学习 模型的泛化能力。常见的方法通常将特征统计量视为从学到的特征中测量 得到的确定值,并没有明确考虑由于潜在域漂移而导致的统计差异的不确 定性。在本文中,我们通过在训练过程中使用合成特征统计量来建模域漂 移的不确定性,从而改善网络的泛化能力。具体来说,我们假设经过考虑 潜在不确定性的特征统计量遵循多元高斯分布。因此,每个特征统计量不 再是确定值,而是具有各种分布可能性的概率点。通过使用不确定的特征 统计量,可以训练模型以减轻域扰动,并更好地抵御潜在的域漂移。我们 的方法可以轻松集成到网络中,不需要额外的参数。大量实验证明,我们提出的方法在多个视觉任务上始终提高了网络的泛化能力,包括图像分类、 语义分割和实例检索。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F11b314fc-4897-45b2-bc73-7fb006b4ba23%2FUntitled.png?table=block&id=8dddef0a-dc39-4947-9ce9-121f06cc0747&cache=v2)