DL花书阅读笔记-深度学习中的结构化概率模型

date
Jun 22, 2022
Last edited time
Jun 22, 2022 06:40 AM
status
Published
slug
DL花书阅读笔记-深度学习中的结构化概率模型
tags
DL
summary
此章节之前的笔记没有整理出来
type
Post
Field
Plat

结构化概率模型

我们可以把概率分布分解成许多因子的乘积形式,而不是使用单一的函数来表示概率分布。
优点: 这种分解可以极大地减少用来描述一个分布的参数数量。
关于随机变量 a,b,c,d 和 e 的有向图模型。
关于随机变量 a,b,c,d 和 e 的有向图模型。
关于随机变量 a,b,c,d 和 e 的无向图模型
关于随机变量 a,b,c,d 和 e 的无向图模型
我们可以用图来描述这种分解。由一些可以通过边互相连接的顶点的集合构成。当我们用图来表示这种概率分布的分解,我们把它称为结构化概率模型(structured probabilistic model)或者图模型(graphical model)。
 
左图的概率分布可以分解为:
右图的概率分布可以分解为:
 
  1. 无向(undirected)模型使用带有无向边的图,它们将分解表示成一组函数

使用图描述模型结构

有向模型

有向(directed)模型使用带有有向边的图,它们用条件概率分布来表示分解。也被称为信念网络(belief network)或者贝叶斯网络(Bayesian network)
变量 的有向概率模型是通过有向无环图 (每个结点都是模型中的随机变量)和一系列局部条件概率分布(local conditional probability distribution) 来定义的,其中 表示结点 的所有父结点。 的概率分布可以表示为

无向模型

无向(undirected )模型,也被称为马尔可夫随机场(Markov random field, MRF)或者是马尔可夫网络(Markov network)。就像它们的名字所说的那样,无向模型中所有的边都是没有方向的
一个无向模型是一个定义在无向模型 上的结构化概率模型。对于图中的每一个,一个因子(factor) (也称为团势能(clique potential)),衡量了团中变量每一种可能的联合状态所对应的密切程度。它们一起定义了未归一化概率函数(unnormalized probability function):
  • 团: 是图中结点的一个子集,并且其中的点是全连接的
为了得到一个有效的概率分布,我们需要使用对应的归一化的概率分布:
其中, 是使得所有的概率之和或者积分为 1 的常数, 归一化常数 被称作是配分函数.
当函数 固定时,我们可以把 当成是一个常数。值得注意的是如果函数 带有参数时,那么 是这些参数的一个函数。则
每一个变量的定义域对于一系列给定的 函数所对应的概率分布有着重要的影响。
  • 基于能量的模型
    • 无向模型中许多有趣的理论结果都依赖于 这个假设。使这个条件满足的一种简单方式是使用基于能量的模型(Energy-based model, EBM),其中
      被称作是能量函数(energy function)。对所有的 都是正的,这保证了没有一个能量函数会使得某一个状态 的概率为 0。我们可以完全自由地选择那些能够简化学习过程的能量函数。我们可以采用无约束的优化方法学习能量函数.
      我们把许多基于能量的模型称为玻尔兹曼机(Boltzmann Machine).
      基于能量的模型只是一种特殊的马尔可夫网络:求幂使能量函数中的每个项对应于不同团的一个因子。
      notion image
      通过为每个团选择适当的能量函数 可以写作 。值得注意的是,我们令 等于对应负能量的指数,可以获得函数,比如,

分离和 d-分离

  • 分离
    • 在无向模型中,识别图中的条件独立性是非常简单的。
      notion image
      左图中, 随机变量 a 和随机变量 b 之间穿过 s 的路径是活跃的,因为 s 是观察不到的。这意味着 a,b 之间不是分离的。
      右图中, 因为 a 和 b 之间的唯一路径通过 s,因为s是可观察的, 这条路径是不活跃的,因此在给定 s 的条件下 a 和 b 是分离的。
  • d-分离
    • 在有向模型中, 如果两个变量之间存在活跃路径,则两个变量是依赖的,如果没有活跃路径,则为d-分离。
      notion image
      (a) 中如果 s 可以被观察到,路径就是阻塞的。
      (b) 中变量 a 和 b 通过共因 s 相连, 如果观察到 s,那么这条路径就被阻塞了。如果 s 不被观测到,那么 a 和 b 是依赖的,即路径是活跃的。
      (c) 变量 a 和 b 都是 s 的父节点, 导致 a 和 b 是相关的。当 s 被观测到时路径是活跃的. 否则是路径是阻塞的.
      (d) 与 (c) 类似
      notion image
      1. 给定空集的情况下,a 和 b 是d-分离的。
      1. 给定 c 的情况下,a 和 e 是d-分离的。
      1. 给定 c 的情况下,d 和 e 是d-分离的。
      1. 给定 c 的情况下,a 和 b 不是d-分离的。
      1. 给定 d 的情况下,a 和 b 不是d-分离的。

在有向模型和无向模型中转换

有向模型能够使用一种无向模型无法完美表示的特定类型的子结构。这个子结构被称为不道德(immorality)。这种结构出现在当两个随机变量 都是第三个随机变量 的父结点,并且不存在任一方向上直接连接 的边时。
为了将有向模型图 转换为无向模型,我们需要创建一个新图 。对于每对变量 ,如果存在连接 中的 的有向边(在任一方向上),或者如果 都是图 中另一个变量 的父节点,则在 中添加连接 的无向边。得到的图 被称为是道德图(moralized graph)
notion image
 
同样的,无向模型可以包括有向模型不能完美表示的子结构。具体来说,如果 包含长度大于 3 的环(loop),则有向图 不能捕获无向模型 所包含的所有条件独立性,除非该环还包含弦(chord)
  • 环指的是由无向边连接的变量序列,并且满足序列中的最后一个变量连接回序列中的第一个变量。
  • 弦是定义环序列中任意两个非连续变量之间的连接。
如果 具有长度为 4 或更大的环,并且这些环没有弦,我们必须在将它们转换为有向模型之前添加弦。添加这些弦会丢弃在 中编码的一些独立信息。
将一个无向模型转化为一个有向模型。
(左) 这个无向模型无法转化为有向模型,因为它有一个长度为 4 且不带有弦的环。具体说来,这个无向模型包含了两种不同的独立性,并且不存在一个有向模型可以同时描述这两种性质:
(中) 为了将无向图转化为有向图,我们必须通过保证所有长度大于 3 的环都有弦来三角形化图。为了实现这个目标,我们可以加一条连接 或者连接 的边。在这个例子中,我们选择添加一条连接 的边。
(右) 为了完成转化的过程,我们必须给每条边分配一个方向。
notion image

因子图

因子图(factor graph)是从无向模型中抽样的另一种方法,它可以解决标准无向模型语法中图表达的模糊性。
在无向模型中,每个 函数的范围必须是图中某个团的子集。通过显式地表示每一个 函数的作用域,因子图解决了这种模糊性。
notion image
(左) 一个包含三个变量(a、b 和 c)的团组成的无向网络。
(中) 对应这个无向模型的因子图。这个因子图有一个包含三个变量的因子。
(右) 对应这个无向模型的另一种有效的因子图。这个因子图包含了三个因子,每个因子只对应两个变量。即使它们表示的是同一个无向模型,这个因子图上进行的表示、推断和学习相比于中图描述的因子图都要渐近地廉价。

从图模型中采样

图模型同样简化了从模型中采样的过程。
有向图模型的一个优点是,可以通过一个简单高效的过程从模型所表示的联合分布中产生样本,这个过程被称为原始采样(Ancestral Sampling)
原始采样的基本思想是将图中的变量 使用拓扑排序,然后可以按此顺序对变量进行采样。拓扑排序操作保证我们可以按照 条件分布的顺序依次采样。

结构化建模的优势

使用结构化概率模型的主要优点是它们能够显著降低表示概率分布、学习和推断的成本。

学习依赖关系

在深度学习中,最常用于建模这些依赖关系的方法是引入几个潜在或 ‘‘隐藏’’ 变量 。然后,该模型可以捕获任何对之间的依赖关系。

推断和近似推断

解决变量之间如何相互关联的问题是我们使用概率模型的一个主要方式。
在一个潜变量模型中,我们可能需要提取能够描述可观察变量 的特征 。我们经常使用最大似然的准则来训练我们的模型。
学习过程中,我们经常需要计算 。所有这些都是推断(inference)问题的例子,其中我们必须预测给定其他变量的情况下一些变量的值,或者在给定其他变量值的情况下预测一些变量的概率分布。

© Lazurite 2021 - 2024