机器学习数学基础:常见分布与假设检验
在介绍常见分布之前, 先来聊两个题外的话题:独立同分布与数据的分布。
第一个话题就是独立同分布, 这个词相信我们不管是教科书还是机器学习的书籍都会碰到吧, 英文名为:independent and identically distributed, 简称i.i.d(这种简写要认识哟)。那么究竟什么是独立同分布呢?
下面我们就用抛硬币的例子来解释独立和同分布, 这样可能会更加清楚:
抛掷一枚硬币, 记出现正面为事件, 事件发生的概率为且为0.4。
接下来开始做抛掷硬币实验,第一次抛掷硬币出现正面的概率为 0.4,第二次抛掷硬币出现正面的概率
也为 0.4, 第
次正面出现的概率
也为0.4, 也就是说每次抛掷硬币得到的结果没有任何关系, 那么我们就说这些试验结果是相互独立的。而如果抛掷一枚智能硬币, 如果第
出现反面, 那么第
次一定是正面, 这样的就不是独立的, 后面的结果依赖于前面的实验结果。
同分布指的是每次抛掷试验, 我们都使用的同一枚硬币, 也就是必须保证始终一样, 不能说我第一次有了正面概率是0.4的硬币, 第二次换成了正面概率是0.6的硬币, 这样就不是同分布了。
第二个话题就是我们为啥要关心数据的分布呢?
大部分机器学习算法都是根据已有历史数据,去学习它们的分布规律,也就是分布的参数。一旦学习到分布的参数后,当再进来新的、未知的数据时,学到的算法模型便会预测或决策出一个结果。这是大部分机器学习的学习过程。
考虑这种情况,如果我们拿训练使用的数据来评价模型好快时,得分肯定高,但是完全没有意义,相信也不会有人这么做,因为它们已经对模型完全学习到、完全已熟悉。
再考虑另一种情况,如果测试用的数据来自完全不同的数据分布,模型预测它们的结果得分往往不会好,虽然也会得到一个分数。测试数据集的分布和训练数据集的数据分布差异太大,训练的模型即便泛化的再好,预测与己分布差异很大数据时也无能为力。
基于以上两种极端情况,我们的希望便是测试数据集要尽可能匹配训练模型所使用的的数据分布,在这个前提下,再去优化调参模型才更有意义,努力才不会白费。
所以如果满足训练数据集和测试数据集的分布近似相同,算法模型才更能发挥威力,这也就是我们为啥要知道一些基本分布的原因。
好了, 铺垫了这么多, 下面就正式学习常见分布了:我们先从连续型随机变量和分布开始。
一、连续型随机变量及常见分布
对于连续型随机变量,使用概率密度函数(probability density function),简称PDF,来描述其分布情况。
连续型随机变量的特点在于取任何固定值的概率都为0,因此讨论其在特定值上的概率是没有意义的,应当讨论其在某一个区间范围内的概率,这就用到了概率密度函数的概念。
假定连续型随机变量,为概率密度函数, 对于任意实数范围如[a,b],有
对于连续型随机变量,通常还会用到累积分布函数 (cumulative distribution function),简称CDF,来描述其性质,在数学上CDF是PDF的积分形式。
分布函数在点处的函数值表示落在区间内的概率,所以分布函数就是定义域为的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。
下面介绍常见的连续型分布:均匀分布、指数分布、正态分布和拉普拉斯分布
1.1 均匀分布
均匀分布指的是一类在定义域内概率密度函数处处相等的统计分布。若是服从区间上的均匀分布,则记作。概率密度函数:
分布函数:
均匀分布的例子:
- 理想的随机数生成器
- 一个理想的圆盘以一定力度选择后静止时的角度
下面是均匀分布的python代码:
1. 生成随机数
"""生成一组符合均匀分布的随机数""" np.random.rand(10) # (0-1)的一组均匀分布的数 np.random.uniform(low=0, high=100, size=10) # 从一个均匀分布[low,high)中随机采样,注意定义域是左闭右开,即包含low,不包含high # 生成大小为1000的符合U(0,1)均匀分布的样本集,注意在此方法中边界值为左闭右开区间 s = np.random.uniform(low=0,high=1,size=1000) # Scipy版 stats.uniform.rvs(size=10)
2. 计算统计分布的PDF和CDF
x = np.linspace(0, 1, 100) p = stats.uniform.pdf(x, loc=0, scale=1) c = stats.uniform.cdf(x, loc=0, scale=1) plt.plot(x, p) plt.plot(x, c) stats.uniform.ppf(0.2)
结果如下:
3. 均匀分布统计可视化
"""均匀分布统计可视化""" x=np.linspace(0,1,100) t= stats.uniform.rvs(0,1,size=10000) p=stats.uniform.pdf(x, 0, 1)
fig, ax = plt.subplots(1, 1) sns.distplot(t,bins=10,hist_kws={'density':True}, kde=False,label = 'Distplot from 10000 samples')
sns.lineplot(x,p,color='purple',label='True mass density') plt.title('Uniforml distribution') plt.legend(bbox_to_anchor=(1.05, 1))
结果如下:
1.2 正态分布
正态分布,也叫做高斯分布,是最为常见的统计分布之一,是一种对称的分布,概率密度呈现钟摆的形状,其概率密度函数为
记为
, 其中
为正态分布的均值,
为正态分布的标准差
有了一般正态分布后,可以通过公式变换将其转变为标准正态分布
正态分布的例子:成人身高, 不同方向气体分子的运动速度, 测量物体质量时的误差。
正态分布在现实生活有着非常多的例子,这一点可以从中心极限定理来解释,中心极限定理说的是一组独立同分布的随机样本的平均值近似为正态分布,无论随机变量的总体符合何种分布。
下面看代码实现:
1. 产生正态分布的随机数
# 生成大小为1000的符合N(0,1)正态分布的样本集,可以用normal函数自定义均值,标准差,也可以直接使用standard_normal函数 s = np.random.normal(loc=0,scale=1,size=1000) s1 = np.random.standard_normal(size=1000) # 标准正态 plt.subplot(1, 2, 1) plt.hist(s1) plt.subplot(1, 2, 2) plt.hist(s)
# Scipy版本 stats.norm.rvs(0., 1., size=100)
结果如下:
2. 计算pdf和cdf
# 计算正态分布N(0,1)的PDF x = np.linspace(-3,3,1000) p= stats.norm.pdf(x,loc=0, scale=1) c = stats.norm.cdf(x, loc=0, scale=1) plt.plot(x, p, label='pdf') plt.plot(x, c, label='cdf') plt.legend()
stats.norm.pdf(0) #pdf也可以直接求某个点的概率密度 0.398 stats.norm.ppf(0.5) # ppf 可以在累积分布函数上求y对应的x 0.0
结果如下:
3. 统计可视化
"""统计可视化""" x=np.linspace(-3,3,100) t= stats.norm.rvs(0,1,size=10000) p=stats.norm.pdf(x, 0, 1)
fig, ax = plt.subplots(1, 1) sns.distplot(t,bins=100,hist_kws={'density':True}, kde=False,label = 'Distplot from 10000 samples')
sns.lineplot(x,p,color='purple',label='True mass density') plt.title('Normal distribution') plt.legend(bbox_to_anchor=(1.05, 1))
结果如下:
4. 不同均值和方差组合的正态分布概率密度函数
"""比价不同的均值和方差组合的正态分布概率密度函数""" x=np.linspace(-6,6,100) p=stats.norm.pdf(x, 0, 1) fig, ax = plt.subplots() for mean, std in [(0,1),(0,2),(3,1)]: p=stats.norm.pdf(x, mean, std) sns.lineplot(x,p,label='Mean: '+ str(mean) + ', std: '+ str(std)) plt.title('Normal distribution') plt.legend(
结果如下:
方差越大,取值越离散,表现出来的形状就更矮胖。
5. 使用正态分布生成实验使用的几簇数据集,用于做聚类等任务的实验数据。
# 原理:想生成几簇数据, 就创建几条线段, 然后在y上进行高斯平移 plt.figure(figsize=(12, 8)) blob1 = 500 x1 = np.linspace(0.5, 3, blob1) y1 = 2 * x1 + 10 + stats.norm.rvs(0., 2., size=(blob1,))
blob2 = 800 x2 = np.linspace(5,8,blob2) y2 = 2 * x2 - 4 + stats.norm.rvs(0.,3.0,size=(blob2,))
blob3 =300 x3 = np.linspace(2,3,blob3) y3 = 2 * x3 -1 + stats.norm.rvs(0.,1.0,size=(blob3,))
plt.scatter(x1,y1,label='cluster0') plt.scatter(x2,y2,label='cluster1') plt.scatter(x3,y3,label='cluster2')
plt.legend() plt.show()
结果如下:
1.3 指数分布
指数分布通常被广泛用在描述一个特定事件发生所需要的时间,在指数分布随机变量的分布中,有着很少的大数值和非常多的小数值。
指数分布的概率密度函数为
例子:顾客到达一家店铺的时间间隔、从现在开始到发生地震的时间间隔、在产线上收到一个问题产品的时间间隔
关于指数分布还有一个有趣的性质的是指数分布是无记忆性的,假定在等候事件发生的过程中已经过了一些时间,此时距离下一次事件发生的时间间隔的分布情况和最开始是完全一样的,就好像中间等候的那一段时间完全没有发生一样,也不会对结果有任何影响,用数学语言来表述是:
下面是代码实现:
1. 随机数和计算pdf, cdf
# 生成大小为1000的符合E(1/2)指数分布的样本集,注意该方法中的参数为指数分布参数λ的倒数 s = np.random.exponential(scale=2,size=1000)
# 计算指数分布E(1)的PDF x = np.linspace(0,10,1000) p= stats.expon.pdf(x,loc=0,scale=1) c = stats.expon.cdf(x, loc=0, scale=1) plt.plot(x, p) plt.plot(x, c)
结果如下:
2. 统计可视化
x=np.linspace(0,10,100) t= stats.expon.rvs(0,1,size=10000) p=stats.expon.pdf(x, 0, 1)
fig, ax = plt.subplots(1, 1) sns.distplot(t,bins=100,hist_kws={'density':True}, kde=False,label = 'Distplot from 10000 samples')
sns.lineplot(x,p,color='purple',label='True mass density') plt.title('Exponential distribution') plt.legend(bbox_to_anchor=(1, 1))
结果如下:
3. 不同参数下的概率密度函数
x=np.linspace(0,10,100) fig, ax = plt.subplots() for scale in [0.2,0.5,1,2,5] : p=stats.expon.pdf(x, scale=scale) sns.lineplot(x,p,label='lamda= '+ str(1/scale)) plt.title('Exponential distribution') plt.legend()
结果如下:
1.4 拉普拉斯分布
这个分布在机器学习领域挺常见,并且和L1正则也有关系, 所以在这里简单整理一下, 它和标准正态很像, 标准的正态分布概率密度函数为:
标准的拉普拉斯分布的概率密度函数为:
如果仅仅是对比公式, 估计看不出啥感觉, 下面绘图看一下:
plt.figure(figsize=(12,8)) x = np.linspace(-5,5,100) y1 = stats.norm.pdf(x) y2 = stats.laplace.pdf(x) plt.grid() plt.xlabel('x') plt.ylabel('pdf') plt.title('probability density function') plt.xticks(ticks=np.arange(-5,5)) plt.plot(x,y1,color='blue',label='norm') plt.plot(x,y2,color='red',label='laplace') plt.legend() plt.show()
看结果:
比较顶端,正态分布相比拉普拉斯分布更加平滑,拉普拉斯概率分布却形成一个尖端。
关于两者的对比应用之一就是正则化,其中L1正则化可看做是拉普拉斯先验,L2正则化看作是正态分布的先验。所以要想深度理解正则化,首先要理解这两个概率分布。
拉普拉斯的两个形状参数与正态分布意义相似:
plt.figure(figsize=(12,8)) x = np.linspace(-5,5,100) y1 = stats.laplace.pdf(x) y2 = stats.laplace.pdf(x,loc=0.0,scale=2.) y3 = stats.laplace.pdf(x,loc=1.0,scale=2.) plt.grid() plt.xlabel('x') plt.ylabel('pdf') plt.title('probability density function') plt.xticks(ticks=np.arange(-5,5)) plt.plot(x,y1,label='u=0;r=1') plt.plot(x,y2,label='u=0;r=2') plt.plot(x,y3,label='u=1,r=2') plt.legend() plt.show()
结果:
好了,关于连续型分布常用的先总结这四种。下面看离散型分布:
二、离散型随机变量及常见分布
对于离散型随机变量,使用概率质量函数(probability mass function),简称PMF,来描述其分布律。
假定离散型随机变量, 共有个取值, , 那么
下面介绍常见的离散型分布:伯努利分布、二项分布、泊松分布
2.1 伯努利分布
伯努利分布比较简
单, 它描述的是离散型变量且发生1次的概率分布,且
取值只有2个, 要么是0, 要么是1, 且
,
。
# 创建分布参数p=0.4的伯努利分布,生成满足此分布的 10 个样本点 bern = stats.bernoulli(0.4) bern.rvs(size=(10,))
2.2 二项分布
二项分布可以认为是一种只有两种结果(成功/失败)的单次试验重复多次后成功次数的分布概率。
在次试验中, 单次试验成功率为, 失败率, 则出现成功次数的概率为:
例子:抛硬币正面朝上的次数, 一批产品中有缺陷的产品数量等
# 生成大小为1000的符合b(10,0.5)二项分布的样本集 s = numpy.random.binomial(n=10,p=0.5,size=1000)
# 计算二项分布B(10,0.5)的PMF x=range(11) p=stats.binom.pmf(x, n=10, p=0.5)
# 统计可视化 x = range(11) # 二项分布成功的次数(X轴) t = stats.binom.rvs(10,0.5,size=10000) # B(10,0.5)随机抽样10000次 p = stats.binom.pmf(x, 10, 0.5) # B(10,0.5)真实概率质量
fig, ax = plt.subplots(1, 1) sns.distplot(t,bins=10,hist_kws={'density':True}, kde=False,label = 'Distplot from 10000 samples') sns.scatterplot(x,p,color='purple') sns.lineplot(x,p,color='purple',label='True mass density') plt.title('Binomial distribution') plt.legend(bbox_to_anchor=(1.05, 1))
结果如下:
不同参数下的概率质量函数:
plt.figure(figsize=(12,8)) x = np.arange(1,51) y1 = stats.binom.pmf(x,p=0.4,n=50) y2 = stats.binom.pmf(x,p=0.6,n=50) y3 = stats.binom.pmf(x,p=0.8,n=50) plt.grid() plt.xlabel('x') plt.ylabel('pdf') plt.title('probability mass function') plt.xticks(ticks=np.arange(1,51,2)) plt.plot(x,y1,label='p=0.4') plt.plot(x,y2,label='p=0.6') plt.plot(x,y3,label='p=0.8') plt.legend() plt.show()
结果如下:
2.3 泊
松分
布
假设已知事件在单位时间(或者单位面积)内发生的平均次数为
,则泊松分布描述了事件在单位时间(或者单位面积)内发生的具体次数为
的概率。
一个服从泊松分布的随机变量,在具有比率参数(rate parameter)的一段固定时间间隔内,事件发生次数为的概率为
例子:交通流的预测、一定时间内,到车站等候公交汽车的人数等
代码实现:
# 生成大小为1000的符合P(1)的泊松分布的样本集 s = numpy.random.poisson(lam=1,size=1000)
# 计算泊松分布P(1)的PMF x=range(11) p=stats.poisson.pmf(x, mu=1)
# 统计可视化 # 比较λ=2的泊松分布的真实概率质量和10000次随机抽样的结果 x=range(11) t= stats.poisson.rvs(2,size=10000) p=stats.poisson.pmf(x, 2)
fig, ax = plt.subplots(1, 1) sns.distplot(t,bins=10,hist_kws={'density':True}, kde=False,label = 'Distplot from 10000 samples') sns.scatterplot(x,p,color='purple') sns.lineplot(x,p,color='purple',label='True mass density') plt.title('Poisson distribution') plt.legend()
结果:
下面是不同参数对应的概率质量函数:
x=range(50) fig, ax = plt.subplots() for lam in [1,2,5,10,20] : p=stats.poisson.pmf(x, lam) sns.lineplot(x,p,label='lamda= '+ str(lam)) plt.title('Poisson distribution') plt.legend()
结果如下:
随着参数增大,泊松分布开始逐渐变得对称,分布也越来越均匀,趋近于正态分布。当很大时, 比如大于1000, 泊松分布可以近似为正态。
下面看一下泊松和二项分布的比较:
plt.figure(figsize=(12,8)) x = np.arange(1,51) y1 = stats.binom.pmf(x,p=0.4,n=50) y2 = stats.poisson.pmf(x,20) plt.grid() plt.xlabel('x') plt.ylabel('pmf') plt.title('probability mass function') plt.xticks(ticks=np.arange(1,51,2)) plt.plot(x,y1,label='binom:p=0.4,n=50') plt.plot(x,y2,label='u=20') plt.legend() plt.show()
结果如下:
当很大, 很小的时候,如或者的时候, 二项分布可以近似泊松。
好了, 常见的分布已经差不多介绍完了, 下面放两张神图(来自组队的学习文档), 这是离散和连续型分布的均值和方差的计算表:
离散型分布:
连续型分布: