概率论复习
date
Dec 20, 2021
Last edited time
Oct 11, 2022 04:11 PM
status
Published
slug
概率论复习
tags
Math
summary
概率论的复习大纲
2022.10.12@添加条件熵等
type
Post
Field
Plat
基本概念样本空间事件与概率运算条件概率独立性全概率公式和贝叶斯公式1、全概率公式2、贝叶斯公式随机变量及其分布随机变量离散型随机变量的定义连续型随机变量的定义及其概率密度常见分布(0-1)分布二项分布 泊松分布 (Poisson 分布)均匀分布 指数分布正态分布常见概率分布表随机变量分布函数随机变量函数的分布多维随机变量及其分布二维随机变量二维分布函数的性质随机变量的独立性两个随机变量函数的分布随机变量的数字特征数学期望方差与标准差方差标准差样本标准差协方差与相关系数协方差相关系数协方差矩阵主成成分分析大数定律弱大数定律-辛钦大数定律强大数定律伯努利大数定律中心极限定理散度与熵KL散度(相对熵)JS散度交叉熵互信息条件熵参数估计 分布t 分布矩估计最大似然估计
基本概念
样本空间
定义:随机试验 的所有结果构成的集合称为 的样本空间,记为 ,称 中的元素 为样本点,一个元素的单点集称为基本事件.
样本空间 是自身的子集, 每次实验必然发生, 称为必然事件
空集 称为不可能事件
事件与概率运算
事件的运算定律
- 与 互斥
- 与 互逆
- 交换律
- 结合律
- 分配律
- 德摩根律
- 集函数 称为事件 的概率,如果它满足下列三条公理
- 非负性
- 规范性
- 可列可加性
概率的运算
条件概率
- 条件概率就是事件 在另外一个事件 已经发生条件下的发生概率。 条件概率表示为
- 联合概率表示两个事件共同发生的概率。 与 的联合概率表示为 或者 。
- 边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。 的边缘概率表示为 , 的边缘概率表示为 。
在同一个样本空间 中的事件或者子集 与 ,如果随机从 中选出的一个元素属于 ,那么这个随机选择的元素还属于 的概率就定义为在 的前提下 的条件概率。也称为后验概率 。同时,与 的关系如下所示:
独立性
若 , 则称 相互独立
若 独立, 则组内运算后还是相互独立
全概率公式和贝叶斯公式
1、全概率公式
假设 是一个概率空间的有限或者可数无限的分割,且每个集合 是一个可测集合,则对任意事件 有全概率公式:
2、贝叶斯公式
如上所示,其中 是在 发生的情况下 发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:
- 是 的先验概率或边缘概率。之所以称为 “先验” 是因為它不考虑任何 方面的因素。
- 是已知 发生后 的条件概率,也由于得自 的取值而被称作 的后验概率。
- 是已知 发生后 的条件概率,也由于得自 的取值而被称作 的后验概率。
- 是 的先验概率或边缘概率,也作标准化常量(normalized constant)。
按这些术语,Bayes 定理可表述为:后验概率 = (相似度 * 先验概率)/ 标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例 也有时被称作标准相似度(standardised likelihood),Bayes 定理可表述为:后验概率 = 标准相似度 * 先验概率。
随机变量及其分布
随机变量
随机变量即给定样本空间 ,其上的实值函数 称为 (实值) 随机变量。
如果随机变量的取值是有限的或者是可数无穷尽的值, 则称 为离散随机变量 。
如果 由全部实数或者由一部分区间组成,则称 为连续随机变量,连续随机变量的值是不可数及无穷尽的:
也就是说,随机变量分为离散型随机变量,和连续型随机变量,当要求随机变量的概率分布的时候,要分别处理之,如:
- 针对离散型随机变量而言,一般以加法的形式处理其概率和
- 而针对连续型随机变量而言,一般以积分形式求其概率和
离散型随机变量的定义
定义:取值至多可数的随机变量为离散型的随机变量。概率分布 (分布律) 为
且
连续型随机变量的定义及其概率密度
- 定义
对于随机变量 的分布函数 ,若存在非负的函数 ,使对于任意实数 ,有:
则称 为连续型随机变量,其中 称为 的概率密度函数,简称概率密度。
- 性质
- 若概率密度函数 在点 上连续, 则
接下来,介绍三种连续型随机变量的分布,由于均匀分布及指数分布比较简单,所以,一图以概之,下文会重点介绍正态分布。
常见分布
(0-1)分布
若 的分布律为:
或
则称 X 服从参数为 p 的 0-1 分布,或两点分布。
写作
二项分布
二项分布是 个独立的 0-1 试验中成功的次数的离散概率分布,其中每次试验的成功概率为 。这样的单次 0-1 试验又称为伯努利试验。举个例子就是,独立重复地抛 n 次硬币,每次只有两个可能的结果:正面,反面,概率各占 1/2。
设 在 重贝努利试验中发生 次,则
并称 服从参数为 的二项分布,记为:
泊松分布 (Poisson 分布)
Poisson 分布(法语:loi de Poisson,英语:Poisson distribution),即泊松分布,是一种统计与概率学里常见到的离散概率分布
若随机变量 X 的概率分布律为
称 X 服从参数为λ的泊松分布,记为: 或
泊松分布的来源
在二项分布的伯努力试验中,如果试验次数 很大,二项分布的概率 很小,且乘积 比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。证明如下。
首先,回顾 e 的定义:
二项分布的定义:
如果令 , 趋于无穷时 的极限:
上述过程表明: 分布可以看成是二项分布 在 条件下的极限分布。
均匀分布
若连续型随机变量 具有概率密度
则称 在区间 上服从均匀分布,记为
易知,,且其期望值
其分布函数为
指数分布
若连续型随机变量 的概率密度为
其中 为常数,则称 服从参数为 的指数分布。记为
正态分布
- 定义
若随机变量 服从一个位置参数为 、尺度参数为 的概率分布,我们便称这样的分布为正态分布或高斯分布记为:
则其概率密度函数为
正态分布的数学期望值或期望值等于位置参数 ,决定了分布的位置;其方差 的开平方,即标准差 等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
- 性质
常见概率分布表
随机变量分布函数
- 定义
随机变量 ,对任意实数 ,称函数 为 的概率分布函数,简称分布函数。
且对任意实数 ,
- 性质
随机变量函数的分布
若 为连续型密度函数 , 求 的概率密度函数
依据此方法, 我们可以写出通用的定理
设随机变量 具有概率密度函数 , 又设函数 处处可导且恒有 , 则 是连续型随机变量, 其概率密度为
为 的反函数, ,
多维随机变量及其分布
二维随机变量
- 定义
使用联合概率密度函数表示 , 其中
二维分布函数的性质
- 设 为二维连续型随机变量,则对平面上任一区域 有
随机变量的独立性
若 , 则
两个随机变量函数的分布
- 特例
若 相互独立
随机变量的数字特征
数学期望
如果 是在概率空间中的一个随机变量,那么它的期望值 的定义是:
并不是每一个随机变量都有期望值的,因为有的时候这个积分不存在。如果两个随机变量的分布相同,则它们的期望值也相同。
在概率论和统计学中,数学期望分两种,一种为离散型随机变量的期望值,一种为连续型随机变量的期望值。
- 一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同 “期望” 的平均值。
例如,掷一枚六面骰子,得到每一面的概率都为 1/6,故其的期望值是 3.5,计算如下:
承上,如果 是一个离散的随机变量,输出值为 和输出值相应的概率为 (概率和为 1),若级数 绝对收敛,那么期望值 是一个无限数列的和:
- 而对于一个连续型随机变量来说,如果 的概率分布存在一个相应的概率密度函数 ,若积分 绝对收敛,那么 的期望值可以计算为:
- 实际上,此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙,由于输出值是连续的,只不过是把求和改成了积分。
- 期望的性质
方差与标准差
方差
在概率论和统计学中,一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。
其定义为:如果 是随机变量 的期望值(平均数) 设为服从分布 的随机变量,则称 为随机变量或者分布的方差:
其中, 为平均数, 为样本总数。
分别针对离散型随机变量和连续型随机变量而言,方差的分布律和概率密度如下图所示:
- 方差的性质
- 是两个随机变量, 则
- 切比雪夫不等式: 对于任意正数 , 有不等式
特别的, 若 相互独立, 则
标准差
标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度。
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。
前面说过,方差的算术平方根称为该随机变量的标准差,故一随机变量的标准差定义为:
须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。
样本标准差
在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
而从一大组数值 当中取出一样本数值组合 ,进而,我们可以定义其样本标准差为:
样本方差 是对总体方差 的无偏估计。 中分母为 是因为 的自由度为 (且慢,何谓自由度?简单说来,即指样本中的 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据 个独立数据来估计的,因此自由度为 n),这是由于存在约束条件 。
协方差与相关系数
协方差
对于二维随机变量 ,除了讨论 与 的数学期望和方差外,还需讨论描述 与 之间相互关系的数字特征.
定义:量 称为随机变量 与 的协方差, 记为
- 性质
- `
相关系数
为随机变量 的相关系数, 是一个无量纲的量
相关系数衡量随机变量 与 相关程度的一种方法,相关系数的取值范围是 。相关系数的绝对值越大,则表明 与 相关度越高。当 与 线性相关时,相关系数取值为 (正线性相关)或 (负线性相关)。
根据相关系数,相关距离可以定义为:
协方差矩阵
- 定义
为 个随机变量组成的向量。
- 样本的协方差矩阵(常用):
也就是下式:
样本协方差矩阵的最大特征值所对应的特征向量为所有样本点 所拟合的直线的方向,其特征值为所有样本点 在特征向量方向上投影的平方和。
- 定义的推导
协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为 。那么协方差矩阵为:
ㅤ | |||
并且由于 ,即 ,那么协方差矩阵可以改写为:
- 协方差矩阵的证明
主成成分分析
尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关 (decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析 (principal components analysis,简称 PCA),在图像处理中称为 Karhunen-Loève 变换 (KL-变换)。
根据 wikipedia 上的介绍,主成分分析 PCA 由卡尔 · 皮尔逊于 1901 年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值)。PCA 是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。
然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为 0 了,这样输入的多个数据就等同于一个数据了。
简而言之,主成分分析 PCA,留下主成分,剔除噪音,是一种降维方法,限高斯分布,n 维眏射到 k 维,
- 减均值,
- 求特征协方差矩阵,
- 求协方差的特征值和特征向量,
- 取最大的 k 个特征值所对应的特征向量组成特征向量矩阵,
- 投影数据 = 原始样本矩阵 x 特征向量矩阵。其依据为最大方差,最小平方误差或坐标轴相关度理论,及矩阵奇异值分解 SVD(即 SVD 给 PCA 提供了另一种解释)。
也就是说,高斯是 0 均值,其方差定义了信噪比,所以 PCA 是在对角化低维表示的协方差矩阵,故某一个角度而言,只需要理解方差、均值和协方差的物理意义,PCA 就很清晰了。
再换言之,PCA 提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。主成分分析在分析复杂数据时尤为有用,比如人脸识别。
大数定律
弱大数定律-辛钦大数定律
设随机变量 相互独立同分布, , 对任意 , 有
说人话, 就是样本均值依概率收敛于期望值。
强大数定律
样本均值以概率1收敛于期望值
伯努利大数定律
换言之,事件发生的频率依概率收敛于事件的总体概率。该定理以严格的数学形式表达了频率的稳定性,也就是说当 很大时,事件发生的频率于总体概率有较大偏差的可能性很小。
中心极限定理
- 独立同分布的中心极限定理
设随机变量 相互独立同分布, ,
则前 个变量之和 的标准化变量
对于 , 有
也就是说, 当 充分大时, 有
或
- Lyapunov定理
设随机变量 相互独立,
若存在整数 , 使得当 时,
则其随机变量之和 的标准化变量
- 棣莫弗 - 拉普拉斯中心极限定理
若 是 次伯努利实验中事件 出现的次数, ,当 , 则对任意有限区间
散度与熵
KL散度(相对熵)
- 定义
相对熵衡量使用概率分布 的最优编码对真实编码 进行编码比用真实分布 需要增加的信息量。
- 性质
- 非负性
- 不对称性
JS散度
一般地,JS散度是对称的,其取值是 到 之间。如果两个分布 离得很远,完全没有重叠的时候,那么 散度值是没有意义的,而 散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为 。梯度消失了。
令 ,则 散度定义为:
交叉熵
- 定义
交叉熵为使用概率分布 的最优编码对真实编码 进行编码的平均信息长度。
最小化交叉熵等价于最小化KL散度。
互信息
设随机变量 是空间 中的一对随机变量。若他们的联合分布是 ,边缘分布分别是
和 ,那么,它们之间的互信息可以定义为:
互信息又可以等价地表示成
其中 和 是边缘熵, 和 是条件熵,而 是 和 的联合熵。
条件熵
条件熵 表示在已知随机变量 的条件下随机变量 的不确定性。随机变量 给定的条件下随机变量 的条件熵(conditional entropy) , 定义为 给定条件下 的条件概率分布的熵对 的数学期望
参数估计
分布
- 定义
, 则
- 性质
- 若
- 若
- 若
矩估计
利用
最大似然估计
- 定义
给定 个样本值 ,希望得到从中推测出总体的泊松分布参数 的估计。为计算最大似然估计值, 列出对数似然函数:
对函数 取相对于 的导数并令其等于零:
解得 从而得到一个驻点(stationary point):
检查函数 的二阶导数,发现对所有的 与 大于零的情况二阶导数都为负 。因此求得的驻点是对数似然函数 的极大值点