导读高斯分布的概率密度函数是怎么表示的答正态分布(也称为高斯分布)的概率密度函数(probability density function,PDF)如下所示:f(x) = (1 / (σ * √(2π))) * e^(-(x - μ)^2 / (2σ^2))在这个公...

今天运困体育就给我们广大朋友来聊聊高斯混合模型下的西甲,希望能帮助到您找到想要的答案。

高斯分布的概率密度函数是怎么表示的

高斯分布的概率密度函数是怎么表示的

正态分布(也称为高斯分布)的概率密度函数(probability density function,PDF)如下所示:

f(x) = (1 / (σ * √(2π))) * e^(-(x - μ)^2 / (2σ^2))

在这个公式中:

- x 是随机变量的取值;

- μ 是正态分布的均值(期望值),决定了分布的中心位置;

- σ 是正态分布的标准差,决定了分布的形状,标准差越大,曲线越扁平。

在公式中,e 是自然对数的底数(约等于2.71828),π 是圆周率。

正态分布的概率密度函数描述了变量在各个取值上的取值概率密度。曲线是钟形的,关于均值对称,呈现高点在均值周围,随着距离均值的增加,概率密度逐渐减小。

需要注意的是,正态分布的总面积等于1,即整个曲线下的概率密度之和为1。这意味着在特定取值范围内的概率可以通过对概率密度函数进行积分来计算。

单高斯模型SGM & 高斯混合模型GMM

在了解高斯混合模型之前,我们先来看看什么是高斯分布,高斯分布大家应该都比较熟悉了,就是我们平时所说的正态分布,也叫高斯分布。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

正态分布的特点

集中性:正态曲线的高峰位于正中央,即均数所在的位置。

对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。

均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

若随机变量 服从一个数学期望为 、方差为 的正态分布,记为 。其中期望值 决定了其位置,标准差 决定了分布的幅度。当 = 0, = 1时,正态分布是标准正态分布。

正态分布有极其广泛的实际背景, 生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述 。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

高斯模型有单高斯模型(SGM)和混合高斯模型(GMM)两种。

概率密度函数服从上面的正态分布的模型叫做单高斯模型,具体形式如下:

当样本数据 是一维数据(Univariate)时,高斯模型的概率密度函数为:

其中: 为数据的均值, 为数据的标准差。

当样本数据 是多维数据(Univariate)时,高斯模型的概率密度函数为:

其中: 为数据的均值, 为协方差,d为数据维度。

高斯混合模型(GMM)是单高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

用通俗一点的语言解释就是, 个单高斯模型混合在一起,生成的模型,就是高斯混合模型。这 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

GMM是工业界使用最多的一种聚类算法。它本身是一种概率式的聚类方法,假定所有的样本数据X由K个混合多元高斯分布组合成的混合分布生成。

高斯混合模型的概率密度函数可以表示为:

其中:

是观察数据属于第 个子模型的概率, ;

是第 个的单高斯子模型的概率密度函数, 或

,具体函数见上方单高斯模型的概率密度函数。

参数估计有多种方法,有矩估计、极大似然法、一致最小方差无偏估计、最小风险估计、同变估计、最小二乘法、贝叶斯估计、极大验后法、最小风险法和极小化极大熵法等。最基本的方法是最小二乘法和极大似然法。

极大似然估计的思想是 :随机试验有多个可能的结果,但在一次试验中,有且只有一个结果会出现,如果在某次试验中,结果w出现了,则认为该结果发生的概率最大。

1)写出似然函数:

假设单个样本的概率函数为 ,对每个样本的概率函数连乘,就可以得到样本的似然函数

2)对似然函数取对数:

目的是为了让乘积变成加法,方便后续运算

3)求导数,令导数为0,得到似然方程:

和 在同一点取到最大值,所以可以通过对 求导,令导数为零,实现同个目的

4)解似然方程,得到的参数即为所求

对于单高斯模型,可以使用极大似然估计(MLE)来求解出参数的值。

单高斯模型的对数似然函数为:

上式分别对 和 求偏导数,然后令其等于0,可以得到对应的参数估计值:

如果依然按照上面的极大似然估计方法求参数

GMM的对数似然函数为:

对上式求各个参数的偏导数,然后令其等于0,并且还需要附件一个条件: 。

我们会发现,直接求导无法计算出参数。所以我们需要用其它方式去解决参数估计问题,一般情况下我们使用的是迭代的方法,用期望最大算法(Expectation Maximization,EM)进行估计。

EM算法的具体原理以及示例见我的另外一篇文章。

高斯密度函数公式是怎样的?

高斯概率密度函数公式是由单变量正态分布、多元正态分布组成的。

单变量高斯分布:

单变量高斯分布概率密度函数定义为:

p(x)=12πσ√exp{12(xμσ)2}

式中μμ为随机变量xx的期望,σ2σ2为xx的方差,σσ称为标准差:

μ=E(x)=∫∞∞xp(x)dx、

σ2=∫∞∞(xμ)2p(x)dx,

可以看出,该概率分布函数,由期望和方差就能完全确定。高斯分布的样本主要都集中在均值附近,且分散程度可以通过标准差来表示,其越大,分散程度也越大,且约有95%的样本落在区间(μ2σ,μ+2σ)。

多元高斯分布:

多元高斯分布的概率密度函数。多元高斯分布的概率密度函数定义:

p(x)=1(2π)d2|Σ|12exp{−12(x−μ)TΣ−1(x−μ)}

其中x=[x1,x2,.,xd]Tx=[x1,x2,.,xd]T是dd维的列向量;

μ=[μ1,μ2,.,μd]Tμ=[μ1,μ2,.,μd]T是dd维均值的列向量;

ΣΣ是d×dd×d维的协方差矩阵;

Σ−1Σ−1是ΣΣ的逆矩阵;

|Σ||Σ|是ΣΣ的行列式;

(x−μ)T(x−μ)T是(x−μ)(x−μ)的转置,且

μ=E(x)

Σ=E{(x−μ)(x−μ)T}(2.3)(2.3)Σ=E{(x−μ)(x−μ)T}

其中μ,Σμ,Σ分别是向量xx和矩阵(x−μ)(x−μ)T(x−μ)(x−μ)T的期望,诺xixi是xx的第ii个分量,μiμi是μμ的第ii个分量,σ2ijσij2是∑∑的第i,ji,j个元素。则:

μi=E(xi)=∫∞−∞xip(xi)dxi

高斯混合模型(GMM)及EM算法的初步理解

高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。

如图1,图中的点在我们看来明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM,那么只能用一个的二维高斯分布来描述图1中的数据。图1中的椭圆即为二倍标准差的正态分布椭圆。这显然不太合理,毕竟肉眼一看就觉得应该把它们分成两类。

这时候就可以使用GMM了!如图2,数据在平面上的空间分布和图1一样,这时使用两个二维高斯分布来描述图2中的数据,分别记为N(μ1,Σ1)和N(μ2,Σ2) 。图中的两个椭圆分别是这两个高斯分布的二倍标准差椭圆。可以看到使用两个二维高斯分布来描述图中的数据显然更合理。实际上图中的两个聚类的中的点是通过两个不同的正态分布随机生成而来。如果将两个二维高斯分布N(μ1,Σ1)和N(μ2,Σ2) 合成一个二维的分布,那么就可以用合成后的分布来描述图2中的所有点。最直观的方法就是对这两个二维高斯分布做线性组合,用线性组合后的分布来描述整个集合中的数据。这就是高斯混合模型(GMM)。

高斯混合模型(GMM)的数学表示:

期望极大(Expectation Maximization)算法,也称EM算法,是一种迭代算法,由Dempster et. al 在1977年提出,用于含有隐变量的概率参数模型的极大似然估计。

EM算法作为一种数据添加算法,在近几十年得到迅速的发展,主要源于当前科学研究以及各方面实际应用中数据量越来越大的情况下,经常存在数据缺失或者不可用的的问题,这时候直接处理数据比较困难,而数据添加办法有很多种,常用的有神经网络拟合、添补法、卡尔曼滤波法等,但是EM算法之所以能迅速普及主要源于它算法简单,稳定上升的步骤能相对可靠地找到“最优的收敛值”。

(个人的理解就是用含有隐变量的含参表达式不断拟合,最终能收敛并拟合出不含隐变量的含参表达式)

模型的EM训练过程,直观的来讲是这样:我们通过观察采样的概率值和模型概率值的接近程度,来判断一个模型是否拟合良好。然后我们通过调整模型以让新模型更适配采样的概率值。反复迭代这个过程很多次,直到两个概率值非常接近时,我们停止更新并完成模型训练。现在我们要将这个过程用算法来实现,所使用的方法是模型生成的数据来决定似然值,即通过模型来计算数据的期望值。通过更新参数μ和σ来让期望值最大化。这个过程可以不断迭代直到两次迭代中生成的参数变化非常小为止。该过程和k-means的算法训练过程很相似(k-means不断更新类中心来让结果最大化),只不过在这里的高斯模型中,我们需要同时更新两个参数:分布的均值和标准差.[3]

GMM常用于聚类。如果要从 GMM 的分布中随机地取一个点的话,实际上可以分为两步:首先随机地在这 K 个 Component 之中选一个,每个 Component 被选中的概率实际上就是它的系数Πk ,选中 Component 之后,再单独地考虑从这个 Component 的分布中选取一个点就可以了──这里已经回到了普通的 Gaussian 分布,转化为已知的问题。

根据数据来推算概率密度通常被称作 density estimation 。特别地,当我已知(或假定)概率密度函数的形式,而要估计其中的参数的过程被称作『参数估计』。

(推导和迭代收敛过程这里省略,可参考资料1)

一个实际的例子:用GMM对iris数据集进行聚类,并通过make_ellipses表示出来

make_ellipses方法概念上很简单,它将gmm对象(训练模型)、坐标轴、以及x和y坐标索引作为参数,运行后基于指定的坐标轴绘制出相应的椭圆图形。

在特定条件下,k-means和GMM方法可以互相用对方的思想来表达。在k-means中根据距离每个点最接近的类中心来标记该点的类别,这里存在的假设是每个类簇的尺度接近且特征的分布不存在不均匀性。 这也解释了为什么在使用k-means前对数据进行归一会有效果。高斯混合模型则不会受到这个约束 ,因为它对每个类簇分别考察特征的协方差模型。

K-means算法可以被视为高斯混合模型(GMM)的一种特殊形式。 整体上看,高斯混合模型能提供更强的描述能力,因为聚类时数据点的从属关系不仅与近邻相关,还会依赖于类簇的形状。n维高斯分布的形状由每个类簇的协方差来决定。在协方差矩阵上添加特定的约束条件后,可能会通过GMM和k-means得到相同的结果。

在k-means方法中使用EM来训练高斯混合模型时对初始值的设置非常敏感。而对比k-means,GMM方法有更多的初始条件要设置。实践中不仅初始类中心要指定,而且协方差矩阵和混合权重也要设置。可以运行k-means来生成类中心,并以此作为高斯混合模型的初始条件。由此可见并两个算法有相似的处理过程,主要区别在于模型的复杂度不同。

高斯混合模型的基本假设是 已知类别的比例 和 类别的个数 ,但是不知道每个样例的具体标签,据此用EM的模式为每个样本进行最优的标注。也就是说它适合的是 无标签学习的分类问题 ,并且需要已知基本假设。

整体来看,所有无监督机器学习算法都遵循一条简单的模式:给定一系列数据,训练出一个能描述这些数据规律的模型(并期望潜在过程能生成数据)。 训练过程通常要反复迭代,直到无法再优化参数获得更贴合数据的模型为止。

【1】; 高斯混合模型(GMM)及其EM算法的理解

【2】;   机器学习中的数学(4)-EM算法与高斯混合模型(GMM)

【3】;   一文详解高斯混合模型原理

两个高斯分布相加,还服从均值为零的高斯分布

两个相互独立的高斯分布相加仍然服从高斯分布。

设X和Y分别为两个高斯分布,其概率密度函数分别为f(x)和g(x)。由于X和Y相互独立,所以其联合概率密度函数为f(x)g(y)。

现在考虑Z=X+Y,我们需要求Z的概率密度函数。

对于任意z,我们可以将其表示为z=x+y,其中x和y分别为X和Y的取值。我们可以通过求解如下积分来求得z处的概率密度函数:

h(z) = ∫[f(x)g(z-x)] dx

为了简化计算,我们可以将h(z)表示为卷积形式:

h(z) = (f * g)(z)

根据卷积的性质,我们可以将卷积的结果表示为两个函数的傅里叶变换的乘积:

h(z) = (f * g)(z) = ∫[F(k)G(k)e^(ikz)] dk

其中F(k)和G(k)分别为f(x)和g(x)的傅里叶变换。

由于X和Y都是高斯分布,其傅里叶变换也是高斯分布。设F(k)和G(k)分别为X和Y的傅里叶变换,其均值分别为μ1和μ2,方差分别为σ1^2和σ2^2。

根据傅里叶变换的性质,高斯分布的傅里叶变换仍然为高斯分布,均值和方差分别为:

傅里叶变换的均值:μ' = μ1 + μ2

傅里叶变换的方差:σ'^2 = σ1^2 + σ2^2

因此,Z=X+Y的概率密度函数h(z)也是高斯分布,其均值为μ',方差为σ'^2。

综上所述,两个相互独立的高斯分布相加,结果仍然服从高斯分布,其均值为两个分布的均值之和,方差为两个分布的方差之和。

今天的内容先分享到这里了,读完本文《高斯混合模型下的西甲-混合高斯模型概率密度计算》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。