导读高斯混合模型(GMM)最佳答案  最近在实际工作中用到了高斯混合模型(Gaussian Mixture Model),遂笔记来整理记录相关知识点,以便复查巩固。简单回顾一下本科概率论讲过的高...

今天运困体育就给我们广大朋友来聊聊高斯西甲模型分析,希望能帮助到您找到想要的答案。

高斯混合模型(GMM)

高斯混合模型(GMM)

最佳答案  最近在实际工作中用到了高斯混合模型(Gaussian Mixture Model),遂笔记来整理记录相关知识点,以便复查巩固。

简单回顾一下本科概率论讲过的高斯模型。

高斯模型是一种常用的变量分布模型,又称正态分布,在数理统计领域有着广泛的应用。

当样本数据 X 是一维数据(Univariate)时,高斯分布遵从下方概率密度函数(Probability Density Function)(下文简称pdf)如下: 其中 为数据均值(期望), 为数据标准差(Standard deviation)。

当样本数据 X 是多维数据(Multivariate)时,高斯分布pdf为:

其中, 为数据均值(期望), 为协方差(Covariance),描述各维变量之间的相关度,D 为数据维度。

  高斯混合模型可以看作是由 K 个单高斯模型组合而成的模型,这 K 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

先来看一组数据。

  所以,混合高斯模型并不是什么新奇的东西,它的本质就是融合几个单高斯模型,来使得模型更加复杂,从而产生更复杂的样本。理论上,如果某个混合高斯模型融合的高斯模型个数足够多,它们之间的权重设定得足够合理,这个混合模型可以拟合任意分布的样本。

对于单高斯模型,我们可以用最大似然法(Maximum likelihood)估算参数 的值 这里我们假设了每个数据点都是独立的(Independent),似然函数由概率密度函数(PDF)给出。

由于每个点发生的概率都很小,乘积会变得极其小,不利于计算和观察,因此通常我们用 Maximum Log-Likelihood 来计算(因为 Log 函数具备单调性,不会改变极值的位置,同时在 0-1 之间输入值很小的变化可以引起输出值相对较大的变动): 对其进行求导并令导数为0,所求出的参数就是最佳的高斯分布对应的参数。

所以最大化似然函数的意义就是:通过使得样本集的联合概率最大来对参数进行估计,从而选择最佳的分布模型。

对于高斯混合模型,Log-Likelihood 函数是: 如何计算高斯混合模型的参数呢?这里我们无法像单高斯模型那样使用最大似然法来求导求得使 likelihood 最大的参数,因为对于每个观测数据点来说,事先并不知道它是属于哪个子分布的(hidden variable),因此 log 里面还有求和,对于每个子模型都有未知的 ,直接求导无法计算。需要通过迭代的方法求解。

EM 算法是一种迭代算法,1977 年由 Dempster 等人总结提出,用于含有隐变量(Hidden variable)的概率模型参数的最大似然估计。

每次迭代包含两个步骤:

这里不具体介绍一般性的 EM 算法,(通过 Jensen 不等式得出似然函数的下界 Lower bound,通过极大化下界做到极大化似然函数,有log(E(x))>=E(log(x))),只介绍怎么在高斯混合模型里应用从来推算出模型参数。

通过 EM 迭代更新高斯混合模型参数的方法(我们有样本数据 和一个有 个子模型的高斯混合模型,想要推算出这个高斯混合模型的最佳参数):

至此,我们就找到了高斯混合模型的参数。需要注意的是,EM 算法具备收敛性,但并不保证找到全局最大值,有可能找到局部最大值。解决方法是初始化几次不同的参数进行迭代,取结果最好的那次。

单高斯模型SGM & 高斯混合模型GMM

最佳答案在了解高斯混合模型之前,我们先来看看什么是高斯分布,高斯分布大家应该都比较熟悉了,就是我们平时所说的正态分布,也叫高斯分布。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

正态分布的特点

集中性:正态曲线的高峰位于正中央,即均数所在的位置。

对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。

均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

若随机变量 服从一个数学期望为 、方差为 的正态分布,记为 。其中期望值 决定了其位置,标准差 决定了分布的幅度。当 = 0, = 1时,正态分布是标准正态分布。

正态分布有极其广泛的实际背景, 生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述 。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

高斯模型有单高斯模型(SGM)和混合高斯模型(GMM)两种。

概率密度函数服从上面的正态分布的模型叫做单高斯模型,具体形式如下:

当样本数据 是一维数据(Univariate)时,高斯模型的概率密度函数为:

其中: 为数据的均值, 为数据的标准差。

当样本数据 是多维数据(Univariate)时,高斯模型的概率密度函数为:

其中: 为数据的均值, 为协方差,d为数据维度。

高斯混合模型(GMM)是单高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

用通俗一点的语言解释就是, 个单高斯模型混合在一起,生成的模型,就是高斯混合模型。这 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

GMM是工业界使用最多的一种聚类算法。它本身是一种概率式的聚类方法,假定所有的样本数据X由K个混合多元高斯分布组合成的混合分布生成。

高斯混合模型的概率密度函数可以表示为:

其中:

是观察数据属于第 个子模型的概率, ;

是第 个的单高斯子模型的概率密度函数, 或

,具体函数见上方单高斯模型的概率密度函数。

参数估计有多种方法,有矩估计、极大似然法、一致最小方差无偏估计、最小风险估计、同变估计、最小二乘法、贝叶斯估计、极大验后法、最小风险法和极小化极大熵法等。最基本的方法是最小二乘法和极大似然法。

极大似然估计的思想是 :随机试验有多个可能的结果,但在一次试验中,有且只有一个结果会出现,如果在某次试验中,结果w出现了,则认为该结果发生的概率最大。

1)写出似然函数:

假设单个样本的概率函数为 ,对每个样本的概率函数连乘,就可以得到样本的似然函数

2)对似然函数取对数:

目的是为了让乘积变成加法,方便后续运算

3)求导数,令导数为0,得到似然方程:

和 在同一点取到最大值,所以可以通过对 求导,令导数为零,实现同个目的

4)解似然方程,得到的参数即为所求

对于单高斯模型,可以使用极大似然估计(MLE)来求解出参数的值。

单高斯模型的对数似然函数为:

上式分别对 和 求偏导数,然后令其等于0,可以得到对应的参数估计值:

如果依然按照上面的极大似然估计方法求参数

GMM的对数似然函数为:

对上式求各个参数的偏导数,然后令其等于0,并且还需要附件一个条件: 。

我们会发现,直接求导无法计算出参数。所以我们需要用其它方式去解决参数估计问题,一般情况下我们使用的是迭代的方法,用期望最大算法(Expectation Maximization,EM)进行估计。

EM算法的具体原理以及示例见我的另外一篇文章。

GMM模型是什么

最佳答案就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。GMMs已经在数值逼近、语音识别、图像分类、图像去噪、图像重构、故障诊断、视频分析、邮件过滤、密度估计、目标识别与跟踪等领域取得了良好的效果。

对图像背景建立高斯模型的原理及过程:图像灰度直方图反映的是图像中某个灰度值出现的频次,也可以认为是图像灰度概率密度的估计。如果图像所包含的目标区域和背景区域相比比较大,且背景区域和目标区域在灰度上有一定的差异,那么该图像的灰度直方图呈现双峰-谷形状。

主要步骤

1、为图像的每个像素点指定一个初始的均值、标准差以及权重。

2、收集N(一般取200,否则很难得到像样的结果)帧图像利用在线EM算法得到每个像素点的均值、标准差以及权重)。

3、从N+1帧开始检测,检测的方法:

对每个像素点:

1)将所有的高斯核按照 ω / σ 降序排序

2)选择满足公式的前M个高斯核:M = arg min(ω / σ > T)

3)如果当前像素点的像素值在中有一个满足:就可以认为其为背景点。

高斯算法数学上和生活中有哪些应用

最佳答案高斯算法即等差数列前N项和

实际应用用常与线性规划联系

以下是有关等差数列应用的计算题一道

有10台型号相同的联合收割机,收割一片土地上的庄稼.若同时投入至收割完毕需要用24小时,但现在他们每隔相同的时间顺序投入工作,每一台投入工作后都一直工作到庄稼收割完毕.如果第一台投入工作的时间是最后一台的5倍,求用这种收割方法收割完这片土地上的庄稼要用多长时间

设每隔d小时投入工作,每台机器的收割为1,则土地共有240份庄稼

an为第n台机器工作的时间

a1=a10-9d=5a10

-9d=4a10

S=240=(a1+a10)*10/2=5*6a10

a10=8

a1=5a10=40

所以共需40小时

今天的内容先分享到这里了,读完本文《高斯模型用在哪》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。