DL花书阅读笔记-线性因子模型

date
Jun 24, 2022
Last edited time
Jun 24, 2022 03:41 AM
status
Published
slug
DL花书阅读笔记-线性因子模型
tags
DL
summary
type
Post
Field
Plat
在本章中,我们描述了一些基于潜变量的最简单的概率模型:线性因子模型(linear factor model)。线性因子模型通过随机线性解码器函数来定义,该函数通过对 的线性变换以及添加噪声来生成
线性因子模型描述如下的数据生成过程。首先,我们从一个分布中抽取解释性因子
其中 是一个因子分布(具有独立性),满足 ,所以易于从中采样。接下来,在给定因子的情况下,我们对实值的可观察变量进行采样
其中噪声通常是对角化的(在维度上是独立的)且服从高斯分布。
描述线性因子模型族的有向图模型,其中我们假设观察到的数据向量 是通过独立的潜在因子 的线性组合再加上一定噪声获得的。不同的模型,比如概率 PCA,因子分析或者是 ICA,都是选择了不同形式的噪声以及先验
notion image
 

概率 PCA 和因子分析

概率 PCA(probabilistic PCA)、因子分析和其他线性因子模型是上述等式(式(1)和式(2))的特殊情况,并且仅在对观测到 之前的噪声分布和潜变量 先验的选择上有所不同。
  • 因子分析
    • 在因子分析(factor analysis) 中,潜变量的先验是一个方差为单位矩阵的高斯分布 . 同时,假定在给定 的条件下观察值 是条件独立(conditionally independent)的。
      因此,潜变量的作用是捕获不同观测变量 之间的依赖关系。实际上,可以容易地看出 服从多维正态分布,并满足
      其中, 是高斯噪声。
  • 概率 PCA
    • 概率 PCA(probabilistic PCA)模型利用了这样一种观察现象:除了一些微小残余的重构误差(reconstruction error)(至多为 ),数据中的大多数变化可以由潜变量 描述。当 时,概率 PCA 退化为 PCA。在这种情况下,给定 情况下 的条件期望等于将 投影到 列所生成的空间上,与 PCA 一样。
      即解方程

独立成分分析

独立成分分析(independent component analysis, ICA)是一种建模线性因子的方法,旨在将观察到的信号分离成许多潜在信号,这些潜在信号通过缩放和叠加可以恢复成观察数据。这些信号是完全独立的,而不是仅仅彼此不相关。
不相关: 即不线性相关, 要求相关系数 . 独立: 要求两个变量之间没有联系.

慢特征分析

慢特征分析(slow feature analysis, SFA)是使用来自时间信号的信息学习不变特征的线性因子模型。其想法源于慢性原则(slowness principle), 其基本思想是与场景中起描述作用的单个量度相比,场景的重要特性通常变化得非常缓慢。因此,我们可能希望将模型正则化,从而能够学习到那些随时间变化较为缓慢的特征。
为了引入慢性原则,我们可以向代价函数添加以下项
其中 是确定慢度正则化强度的超参数项, 是样本时间序列的索引, 是需要正则化的特征提取器, 是测量 之间的距离的损失函数。 的一个常见选择是均方误差。
SFA 算法先将 定义为线性变换,然后求解如下优化问题
习特征具有零均值的约束防止特征选择具有不同常数的等价解, 特征具有单位方差的约束对于防止所有特征趋近于 0.
要学习多个特征,我们还必须添加约束要求学习的特征必须彼此线性去相关。
没有这个约束,所有学习到的特征将简单地捕获一个最慢的信号。可以想象使用其他机制,如最小化重构误差,也可以迫使特征多样化。但是由于 SFA 特征的线性,这种去相关机制只能得到一种简单的解。

稀疏编码

稀疏编码(sparse coding) 是一个线性因子模型,使用了线性的解码器加上噪声的方式获得一个 的重构,更具体地说,稀疏编码模型通常假设线性因子有一个各向同性精度为 的高斯噪声:
分布 通常选取为一个峰值很尖锐且接近 的分布。常见的选择包括可分解的 Laplace、Cauchy 或者可分解的 Student-t 分布。例如,以稀疏惩罚系数 为参数的 Laplace 先验可以表示为
相应的,Student-t 先验分布可以表示为
稀疏编码中的编码器不是参数化的编码器。相反,编码器是一个优化算法,在这个优化问题中,我们寻找单个最可能的编码值:
结合式 (5) 和式 (6),我们得到如下的优化问题:
这一步不懂

PCA的流形解释

平坦的高斯能够描述一个低维流形附近的概率密度。此图表示了 “流形平面’’ 上 ‘‘馅饼’’的上半部分,并且这个平面穿过了馅饼的中心。正交于流形方向(指向平面外的箭头方向)的方差非常小,可以被视作是 ‘‘噪声’’,其他方向(平面内的箭头)的方差则很大,对应了 ‘‘信号’’ 以及降维数据的坐标系统。
平坦的高斯能够描述一个低维流形附近的概率密度。此图表示了 “流形平面’’ 上 ‘‘馅饼’’的上半部分,并且这个平面穿过了馅饼的中心。正交于流形方向(指向平面外的箭头方向)的方差非常小,可以被视作是 ‘‘噪声’’,其他方向(平面内的箭头)的方差则很大,对应了 ‘‘信号’’ 以及降维数据的坐标系统。
线性因子模型,包括 PCA 和因子分析,可以理解为学习一个流形。我们可以将概率 PCA 定义为高概率的薄饼状区域,即一个高斯分布。PCA 可以理解为将该薄饼与更高维空间中的线性流形对准。这种解释不仅适用于传统 PCA,而且适用于学习矩阵 的任何线性自编码器,其目的是使重构的 尽可能接近于原始的
编码器表示为:
编码器计算 的低维表示。从自编码器的角度来看,解码器负责计算重构:
能够最小化重构误差 的线性编码器和解码器的选择对应着 的列形成一组标准正交基,这组基生成的子空间与协方差矩阵
的主特征向量所生成的子空间相同。在 PCA 中, 的列是按照对应特征值(其全部是实数和非负数)幅度大小排序所对应的特征向量。
 

© Lazurite 2021 - 2024