Training-Free Layout Control with Cross-Attention Guidance 论文阅读
date
Nov 23, 2023
Last edited time
Nov 23, 2023 02:45 PM
status
Published
slug
Training-Free Layout Control with Cross-Attention Guidance 论文阅读
tags
DDPM
summary
type
Post
origin
Field
Plat
Intro
当请求生成一个“一只猫左边的狗”的图像时,无法确保生成的对象之间的空间关系是否与期望的布局相匹配。为了解决这个问题,我们研究了文本到图像模型在生成过程中提取的注意力模式,并对其进行干预。尽管布局不能轻松地通过文本提示来控制,但实际上,我们可以通过直接干预激活模式来引导输出图像的重构方向。这种干预是基于用户指定的输入,例如边界框,我们称之为布局引导。为了实现这一目标,我们考虑并比较了两种替代策略:前向引导和反向引导。前向引导通过偏置交叉注意力层直接重新定位所需模式的激活,从而使模型能够通过迭代应用去噪步骤来融入引导信息。反向引导则使用反向传播来最小化能量,以更新网络中的激活,以匹配所需的布局。
Method
Cross-attention maps 可视化
Forward Guidance
在Forward Guidance中,我们使用平滑窗口函数 来表示边界框B,该函数在框内部分等于一个正常常数 ,并在框外迅速衰减至零。我们对窗口函数进行缩放,使其总和为一()。接着,我们通过以下替换方式对注意力图 进行偏置处理:
Backward Guidance
我们引入能量函数来偏置注意力 :
通过反向传播计算损失的梯度,从而更新潜在变量。
Exp
这玩意在 Universal Guidance 里面也有,区别就是一个 guide x0,一个guide attention map.