关于郎之万动力学采样与EBMs模型

date

Sep 5, 2022

Last edited time

Sep 5, 2022 05:03 PM

status

Published

slug

关于郎之万动力学采样与EMB模型

tags

Algorithm

summary

type

Post

origin

https://www.notion.so/lazurite/EMB-9055101a8633484b8aecdf479928ee13

Field

Plat

抽样理论中有哪些令人印象深刻(有趣)的结论?

我们知道很多蒙特卡洛采样方法是来源于物理，比如最有名的哈密顿蒙特卡洛方法(HMC)，就是源自于哈密顿动力学。不过这次我并不打算详细说明哈密顿蒙特卡洛，相关的解读已经很多了。今天我想讲另一个大家可能不怎么在意的郎之万动力学(Langevin dynamics)采样法，没错就是那位传说和居里夫人有绯闻的郎之万同学。我们先讲结论，郎之万动力学采样方法源自于布朗运动，同时也是一个变优化为采样的神奇方法。没错就是那个出现在了高中物理课本中的布朗运行。很难想象，一个常见的物理现象竟然会延申出一个采样方法，就让我们看一下到底发生了什么？朗之万方程描述的是布朗运动，即由于与流体分子的碰撞，粒子的随机运动方程为: 其中 x 是粒子的位置， m 是粒子的质量。右边式子的第一项是流体的粘滞力，第二项就是分子热运动带来的碰撞力，也叫做热涨落。它有个特点就是时间上平均值等于0。通过解方程(1)，我们可以得到：其中， D=k_BT/\lambda ，和温度成正比。这个解的意思是，布朗运动粒子平均运动位置离原点(初始点)距离的平方和时间成正比。这个解就是对扩散运动的一个直观解释，随着时间推移，粒子跑的越来越"散" 。额外补充一句就是， D=k_BT/\lambda 也被叫做爱因斯坦关系，由阿尔伯特·爱因斯坦在1905年和Marian Smoluchowski在1906年独立发现。我们知道抽样方法的目标就是抽样一个分布，那么布朗运动和分布又有什么关系呢？假设粒子在一个势能 U(x)=kx^2/2 中运动，它的运动方程由郎之万动力学描述：按照(1)式相同的解法，我们会得到关于粒子位置 x 分布的解：这个方程就是我们常见的玻尔兹曼分布。通过郎之万方程，我们竟然获得了粒子的分布。我们从布朗运动出发，通过郎之万动力学，架起来动力学和分布的桥梁。接下来就可以利用这个桥梁来采样了：通过模拟动力学来采样分布，具体而言就是精确模拟粒子在势能以及热涨落中运动，捕捉粒子的位置，作为样本，就会得到想要的分布。最后要给大家交代的就是"势能"以及"热涨落"怎么来模拟：热涨落力具有高斯分布，于是我们可以用高斯分布来模拟这个力：对于贝叶斯分布后验分布， p(\theta|X) \propto p(\theta) \prod_{i=0}^N p(x_i|\theta) ，其中 \theta 是参数。根据玻尔兹曼分布，其势能就是 U(\theta) = \log p(\theta|X) 。于是势能力就可以通过对势能求梯度而获得。于是当势能和热涨落都可以模拟的情况下，我们就可以通过模拟粒子运动来采样了：这个公式来自于 Bayesian Learning via Stochastic Gradient Langevin Dynamics ，具体细节大家可以参考这篇文章。最后要补充的就是，如果去掉高斯项\eta_t ，剩下的部分就是梯度项，不就是我们常见的梯度法(gradient method)来优化目标函数吗？从这个角度而言，在梯度项上面加一个平凡无奇的高斯项就可以化优化为采样，实在是太神奇了！参考资料：朗之万方程维基百科

https://www.zhihu.com/question/348483881/answer/871584499

布朗运动

朗之万方程描述的是布朗运动，即由于与流体分子的碰撞，粒子的随机运动方程为:

其中是粒子的位置，是粒子的质量。右边式子的第一项是流体的粘滞力，第二项就是分子热运动带来的碰撞力，也叫做热涨落。它有个特点就是时间上平均值等于0。通过解方程(1)，我们可以得到：

其中，，和温度成正比。

这个解的意思是，布朗运动粒子平均运动位置离原点(初始点)距离的平方和时间成正比。这个解就是对扩散运动的一个直观解释，随着时间推移，粒子跑的越来越“散”。

也被叫做爱因斯坦关系，由阿尔伯特·爱因斯坦在1905年和Marian Smoluchowski在1906年独立发现。

重现玻尔兹曼分布

我们知道抽样方法的目标就是抽样一个分布，那么布朗运动和分布又有什么关系呢？

假设粒子在一个势能中运动，它的运动方程由郎之万动力学描述：

按照(1)式相同的解法，我们会得到关于粒子位置分布的解：

这个方程就是我们常见的玻尔兹曼分布。通过郎之万方程，我们竟然获得了粒子的分布。

郎之万动力学采样法

我们从布朗运动出发，通过郎之万动力学，架起来动力学和分布的桥梁。接下来就可以利用这个桥梁来采样了：

通过模拟动力学来采样分布，具体而言就是精确模拟粒子在势能以及热涨落中运动，捕捉粒子的位置，作为样本，就会得到想要的分布。

最后要给大家交代的就是“势能”以及“热涨落”怎么来模拟：

热涨落力具有高斯分布，于是我们可以用高斯分布来模拟这个力：

对于贝叶斯分布后验分布，，其中是参数。根据玻尔兹曼分布，其势能就是。于是势能力就可以通过对势能求梯度而获得。

于是当势能和热涨落都可以模拟的情况下，我们就可以通过模拟粒子运动来采样了：

这个公式来自于Bayesian Learning via Stochastic Gradient Langevin Dynamics，具体细节大家可以参考这篇文章。

最后要补充的就是，如果去掉高斯项，剩下的部分就是梯度项，不就是我们常见的梯度法(gradient method)来优化目标函数吗？从这个角度而言，在梯度项上面加一个平凡无奇的高斯项就可以化优化为采样，实在是太神奇了！

郎之万动力学采样法的实例

能量视角下的GAN模型-EBMs

这篇文章就是指出能量模型实际上就是某个特定的 Langevin 方程的静态解，然后就用这个 Langevin 方程来实现采样，有了采样过程也就可以完成能量模型的训练。跟《能量视角下的 GAN 模型（二）：GAN＝"分析"＋"采样"》一样，假设我们有一批数据，我们希望用一个概率模型去拟合它，我们选取的模型为其中是带参数的未定函数，我们称为 "能量函数"，而是归一化因子（配分函数）这样的分布可以称为 "能量分布"，在物理中也被称为 "玻尔兹曼分布"。越小越好，为此，我们对使用梯度下降。我们有（具体推导参考上面链接）这里的能量函数 , 相当是 , 即 . 在式 (5) 中，是容易估算的，直接抽样一批真实数据来计算就行了；但是却很困难，因为我们不知道怎么实现从中采样。重要采样思路是定义另外一个容易采样的分布，然后改为从中采样，同时去缩小和的差异，使得确实可以成为的一个良好近似。但这篇论文不一样，它直接从能量模型对应的 Langevin 方程采样。 Langevin 方程：马尔可夫链由一个随机状态和一个转移分布定义而成，是一个概率分布，说明了给定状态的情况下随机地转移到的概率。运行一个马尔可夫链意味着根据转移分布采出的值来更新状态。从状态到新状态 ′ 。单一状态转移到的概率可以表示为 .

https://lazurite.vercel.app/%E8%83%BD%E9%87%8F%E8%A7%86%E8%A7%92%E4%B8%8B%E7%9A%84GAN%E6%A8%A1%E5%9E%8B-EBMs#1e3ece5f06b6424d91c0e8eacbd6e174