机器学习相关的概率论和信息论基础知识

本文系统性总结了学习机器学习所需的概率论和信息论基础知识。

通过使用概率论,可以计算事件$Y$在事件$X$发生时的概率,这是很多机器学习的算法的构建模型的基础,比如建模$Y=f(X)$。通过使用信息论,可以描述随机事件的信息量也可以计算两种概率分布的差异,而后者是机器学习模型通常要优化的目标,比如度量模型预测分布$\hat Y$和数据分布$Y$的差异$g(\hat Y, Y)$。

概率论

概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。例如在标准大气压下,纯水加热到100℃时水必然会沸腾等。随机现象则是指在基本条件不变的情况下,每一次试验或观察前,不能肯定会出现哪种结果,呈现出偶然性。例如,掷一硬币,可能出现正面或反面。随机现象的实现和对它的观察称为随机试验。随机试验的每一可能结果称为一个基本事件,一个或一组基本事件统称随机事件,或简称事件。典型的随机试验有掷骰子、扔硬币、抽扑克牌以及轮盘游戏等。

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。

概率

概率亦称“或然率”。它反映随机事件出现的可能性大小的量度。

随机事件

随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母表示,比如$X$。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作$x_i$。全体样本点组成的集合称为这个试验的样本空间,记作$\Omega$.即$\Omega=\{x_1, x_2,…,x_n \}$。仅含一个样本点的随机事件称为基本事件,含有多个样本点的随机事件称为复合事件。

随机变量

一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间$\Omega$。 随机变量$X$是定义在基本空间$\Omega$上的取值为实数的函数,即基本空间$\Omega$中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,随机投掷一枚硬币,可能的结果有正面朝上,反面朝上两种,若定义$X$为投掷一枚硬币时正面朝上的次数,则X为一随机变量,当正面朝上时,X取值1;当反面朝上时,X取值0。又如,掷一颗六面骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义$X$为掷一颗骰子时出现的点数,则$X$为一随机变量,出现1,2,3,4,5,6点时$X$分别取值1,2,3,4,5,6。

概率密度函数概率质量函数

随机变量可以是离散的,这意味着它具有有限数量的值。 对于离散随机变量,我们用概率质量函数(PMF, probability mass function)(通常表示为$P$)定义其概率分布。概率质量函数将随机变量的值映射到随机变量等于该值的概率。$P(X=x_1)$因此表示$X$取值$x_1$的概率。如果一个事件属于哪个随机变量是明确的,我们将改用$P(x_1)$。每个事件$x \in X$的概率为$0 \le P(x) \le 1 $。不可能的事件的概率为0,而确定发生的事件的概率为1。

如果随机变量能够在一个间隔中取任意值,则该变量被认为是连续的,我们使用概率密度函数(PDF,probability density function)(通常指定为$p$来指定其概率分布)。与概率质量函数相比,概率密度函数不提供特定事件的可能性。实际上,该区间内任何特定点的概率为0。我们通过$p(x)$和无限小体积$\delta x$ 的乘积 $p(x) \delta x$作为概率。

概率分布函数

在实际问题中,常常要研究一个随机变量$X$取值小于某一数值$x$的概率,这概率是$X$的函数,称这种函数为随机变量$X$的分布函数,简称分布函数,记作$F(X)$,即$F(X)=P(X < x) (-∞ < x < +∞)$。 分布函数 (CDF, Cumulative Distribution Function),是概率统计中重要的函数,正是通过它,可用数学分析的方法来研究随机变量。分布函数是随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。

联合分布边缘分布条件分布

联合概率分布(joint probability distribution)是同时在多个随机变量上的概率分布。 对于事件$x \in X$和$y \in Y$,$P(X = x,Y = y)$表示两个事件同时发生的概率。为了简洁起见,我们通常将$P(X = x,Y = y)$写为$P(x, y)$。

给定联合概率分布,边缘概率分布(marginal probability distribution)是随机变量子集上的概率分布。

  • 对于离散变量,给定$P(X, Y)$,我们可以用概率加和规则为所有$x \in X$计算$P(x)$:$P(x)=\sum\limits_{y} P(x, y) $
  • 对于连续变量,给定$p(X, Y)$,我们可以用概率加和规则为所有$x \in X$计算$p(x)$:$p(x)=\int_{y} p(x, y)dy $

为了对事件进行预测(这是机器学习中模型的关键),我们需要在已发生其他事件的情况下计算事件的概率,也称为条件概率。 我们将给定事件$x$的事件$y$的条件概率表示为$P(y | x)$。我们可以将此条件概率(conditional probability)定义为事件的联合概率除以已经发生的事件的边缘概率:$P(y|x)=\dfrac{P(x, y)}{P(x)}$

全概率公式

全概率公式表示若事件$A_1, A_2,…,A_n$构成一个完备事件组且都有正概率,则对任意一个事件$B$都有公式成立:

特别的,对于任意两随机事件$A$和$B$,有如下成立:

概率乘法定理

概率乘法定理(multiplication theorem of probability),亦称概率乘法规则,即两事件积的概率,概率论的重要定理之一,等于其中一事件的概率与另一事件在前一事件已发生时的条件概率的乘积。

最简单的一种情况就是:

独立

要有两随机事件$A$和$B$。$A$和$B$发生的概率分别为$P(A)$和$P(B)$,$AB$事件同时发生的概率为$P(AB)$若$P(A) \times P(B)=P(AB)$,则$A$和$B$相互独立。事件$A$发生的概率不影响事件$B$发生的概率,反之亦然。

条件独立

如果$P(X,Y|Z)=P(X|Z)P(Y|Z)$,或等价地$P(X|Y,Z)=P(X|Z)$,则称事件$X,Y$对于给定事件$Z$是条件独立的,也就是说,当$Z$发生时,$X$发生与否与$Y$发生与否是无关的。

贝叶斯公式

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如$P(A|B)$和$P(B|A)$。按照乘法法则,可以立刻导出:

期望

数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。函数$f(x)$相对于$P(X)$的平均值为$\mu$,其中$x$来自分布$P(X)$,该平均值也称为期望值。对于离散变量,我们可以通过求和来计算期望值:

其中$x \sim P$表示$x$是从$P$中抽取的。本质上,期望是函数的所有值的平均值,并以其概率加权。对于离散变量,我们可以通过求积分来计算期望值:

期望具有线性性质,即随机变量之和的期望等于其各个期望的总和:

如果我们从$P(X)$中采样$x$ $n$次,则样本均值$s_n$是平均值:

方差

方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。$x$采样自分布$P$,$f(x)$与其均值的平方差的期望值为$f(x)$的方差:

上式的另一种形式是:

标准偏差只是方差的平方根,通常表示为$\sigma$,而方差指定为$\sigma ^2$。作为平方的期望,方差始终为正。均值和方差分别称为概率分布的第一矩和第二矩。

协方差

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。两个随机变量$X$和$Y$的协方差计算式如下:

两个独立的变量的协方差为零,而两个非独立变量的协变量不为零。

Pearson相关系数

Pearson相关系数(Pearson correlation coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。两个随机变量$X$和$Y$的Pearson相关系数计算式如下:

大数定律

大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数“定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理,如伯努利大数定理。

大数定律有若干个表现形式。这里仅介绍高等数学概率论要求的常用的三个重要定律:

切比雪夫大数定理

设$X_1,X_2,..,X_n$是一列相互独立的随机变量(或者两两不相关),且期望$E(X_k)=\mu_k$和方差$D(x_k)=\sigma^2$。若存在常数$C$使得$D(X_k) \le C (k=1,2,…,n)$,则:

将该公式应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

特别需要注意的是,切比雪夫大数定理并未要求$X_1,X_2,..,X_n$同分布,相较于伯努利大数定律和辛钦大数定律更具一般性。

伯努利大数定律

设$\mu$是$n$次独立试验中事件$A$发生的次数,且事件$A$在每次试验中发生的概率为$p$,则:

该定律是切比雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。

在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此

辛钦大数定律

设$X_1,X_2,..,X_n$是独立同分布的随机变量序列,且期望$E(X_k)=\mu_k$,则:

辛钦大数定律从理论上指出:用算术平均值来近似实际真值是合理的,而在数理统计中,用算术平均值来估计数学期望就是根据此定律,这一定律使算术平均值的法则有了理论依据。

中心极限定理

中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。

独立同分布的中心极限定理

设$X_1,X_2,..,X_n$是独立同分布的随机变量序列,并且具有有限期望$E(X_k)=\mu_k$和方差$D(X_k)=\sigma^2$ ,则对于任意$X$,分布函数:

满足

该定理说明,当$n$很大时,随机变量$Y_n = \dfrac{\sum_{i=1}^n X_i – n \mu}{\sigma \sqrt {n}}$近似地服从标准正态分布$N(0, 1)$。

棣莫佛-拉普拉斯定理

棣莫弗—拉普拉斯中心极限定理,即二项分布以正态分布为其极限分布定律。

设随机变量$X_1,X_2,..,X_n$是服从参数为$n, p(0<p<1)$的二项分布,则对于任意有限区间$(a, b)$有:

该定理表明,正态分布是二项分布的极限分布,当数充分大时,我们可以利用上式来计算二项分布的概率。

不同分布的中心极限定理

该定理说明:所研究的随机变量如果是有大量独立的而且均匀的随机变量相加而成,那么它的分布将近似于正态分布。

最大似然估计

最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。

概率分布

概率分布,是指用于表述随机变量取值的概率规律。如果试验结果用变量$X$的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。

伯努利分布

在机器学习中,我们经常会使用一些常见的概率分布。最简单的概率分布是伯努利分布,它是单个二进制随机变量上的离散分布。它由参数$\phi \in [0, 1]$定义,该参数控制随机变量$X$等于1的概率:$P(x=1) = \phi$。 相反,$P(x=0) = 1 – \phi$。由此得出伯努利分布的概率质量函数:

二项分布

二项分布是$n$个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为$\phi$。这样的单次成功/失败试验又称为伯努利试验。

正态分布

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。

一维正态分布

若随机变量$X$服从一个位置参数为$\mu$、尺度参数为$\sigma$的概率分布,且其概率密度函数为:

则这个随机变量$X$就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作 $X \sim N(\mu , \sigma ^2) $,读作$X$服从$X \sim N(\mu , \sigma ^2) $,或$X$服从正态分布。

标准正态分布

当$\mu = 0, \sigma = 1$时,正态分布就成为标准正态分布:

经验分布

通常,我们将使用经验分布(empirical distribution)或数据生成分布(data generating distribution)来近似我们想要学习的真实基础分布。

如果数据是离散的,那么我们可以简单地使用多元分布,其中每个数据点的概率就是训练过程中其频率,其经验分布是:

其中$\boldsymbol 1$是一个指示函数,如果$\boldsymbol x_i = \boldsymbol x$则它的值为1,否则为0。

如果数据是连续的,其经验分布是:

其中$\delta(X)$是狄拉克增量函数(Dirac delta function),其满足以下定义即可:$\int_{- \infty}^{\infty} \delta (x) dx=1, \delta(X=0) = \infty$ ,其它$\delta(X)=0$。

信息论

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。

在机器学习中,将使用信息论中的度量来根据两个概率分布所编码的信息来表征两个概率分布之间的差异。与数据的经验分布相比,这将为我们提供模型正在学习的概率分布的“良好”度量。

自信息 / 信息量

信息论的基本量度是自信息(Self-information),又称信息量,它使我们能够确定事件$x \in X$的含有的信息的多寡:

如果$log$的底为2,那么信息量的单位是bit;如果底为$e$,那么信息量的单位是nats。

香农熵 / 信息熵

香农熵,又称信息熵,表示来自概率分布$P$的所有事件$x$含有的信息量的期望值,香农熵有效地衡量了概率分布中包含的不确定性。

相对熵 / KL散度

我们可以将熵的概念扩展到两个分布,相对熵,又被称为KL散度(Kullback-Leibler divergence)或信息增益,是两个概率分布间差异的非对称性度量。在在信息理论中,相对熵等价于两个概率分布的信息熵的差值:

JS散度

JS散度(Jensen-Shannon divergence),度量两个概率分布之间的差异性的定义:

其中$M = \dfrac{1}{2}(P + Q)$。

交叉熵

交叉熵(cross-entropy)主要用于度量两个概率分布间的差异性信息,其定义是:

给交叉熵加减$\mathbb E_{x \sim P} [logP(x)]$,得到:

即:

概率分布$P$和$Q$的交叉熵等于概率分布$P$的熵与概率分布$P$和$Q$的散度。

逐点相互信息

点向互信息(PMI,Pointwise mutual information)是两个离散随机变量$X$和$Y$的结果之间关联的一种度量。具体来说,它衡量了随机变量$X$和$Y$联合与其各自概率的乘积之间的差异:

自然语言处理中的一种经典方法是计算语料库中每对单词之间的PMI,该PMI存储在互信息矩阵MI中。潜在的语义分析可以用来分解这样的矩阵。互信息(MI)是PMI的期望值:

我们将使用互信息矩阵MI来表征学习出的表示(learned representations)和输出标签(output labels)之间的关联。

相关资源

《可视化统计概率入门书》 学习概率论

注意重点利用该书的目录结构顺序和可视化效果学习,但不可全信该书,该书的中文翻译有少许错误存在,多查资料!

Distribution is all you need

深度学习研究人员的基本分布概率教程,涵盖以下图中的12种常见分布。

Neural Transfer Learning for Natural Language Processing

Ruder S. Neural Transfer Learning for Natural Language Processing[D]. NATIONAL UNIVERSITY OF IRELAND, GALWAY, 2019.

该论文 2.1 概率论和信息论 系统性地讲解了与自然语言处理相关的概率论和信息论知识。

待整理资料

常见分布的期望与方差

Wasserstein距离

切比雪夫定理

统计推断

统计推断是通过样本推断总体的统计方法。总体是通过总体分布的数量特征即参数 (如期望和方差) 来反映的。因此,统计推断包括: 对总体的未知参数进行估计;对关于参数的假设进行检查; 对总体进行预测预报等。科学的统计推断所使用的样本,通常通过随机抽样方法得到。统计推断的理论和方法论基础,是概率论和数理统计学。

统计推断:频率学派

频率学派通过观察数据来确定背后的概率分布。

统计推断:贝叶斯学派

贝叶斯学派的思想是用数据来更新特定假设的概率。

似然函数

似然函数 $P(X|\theta)$ 表达了在不同的参数 $\theta$ 下,观测数据出现的可能性的大小。注意,似然函数不是参数 $\theta$ 的概率分布,并且似然函数关于参数 $\theta$ 的积分并不(一定)等于1。

似然与概率的区别

补充:

L($\theta$|x)=f(x|$\theta$)这个等式表示的是对于事件发生的两种角度的看法。其实等式两遍都是表示的这个事件发生的概率或者说可能性。再给定一个样本x后,我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为f,里面有参数 $\theta$。对于不同的$\theta$,样本的分布不一样。f(x|$\theta$)表示的就是在给定参数$\theta$的情况下,x出现的可能性多大。L($\theta$|x)表示的是在给定样本x的时候,哪个参数$\theta$使得x出现的可能性多大。所以其实这个等式要表示的核心意思都是在给一个$\theta$和一个样本x的时候,整个事件发生的可能性多大。

似然与概率的联系

最大似然估计

如何通俗地理解“最大似然估计法”?

共轭先验分布

在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。比如,高斯分布家族在高斯似然函数下与其自身共轭(自共轭)。这个概念,以及”共轭先验”这个说法,由霍华德·拉法拉和罗伯特·施莱弗尔在他们关于贝叶斯决策理论的工作中提出。类似的概念也曾由乔治·阿尔弗雷德·巴纳德独立提出。

具体地说,就是给定贝叶斯公式 $p(\theta|x)=\dfrac{p(x|\theta)p(\theta)}{\int p(x|\theta’)d(\theta’)}$,假定似然函数 $p(x|\theta)$ 是已知的,问题就是选取什么样的先验分布 $p(\theta)$ 会让后验分布与先验分布具有相同的数学形式。

共轭先验的好处主要在于代数上的方便性,可以直接给出后验分布的封闭形式,否则的话只能数值计算。共轭先验也有助于获得关于似然函数如何更新先验分布的直观印象。

所有指数家族的分布都有共轭先验。