高斯混合模型下的西甲前锋
今天运困体育就给我们广大朋友来聊聊高斯混合模型下的西甲前锋,希望能帮助到您找到想要的答案。
- 1、高斯混合模型(GMM)和EM算法
- 2、大冷门!西甲4.9亿劲旅轰然倒下,保级队轰入4球,球迷疯狂庆祝
- 3、单高斯模型SGM & 高斯混合模型GMM
- 4、高斯混合模型(GMM)
- 5、想了解一下西甲足球的发展历程?有什么大事件可以分享出来吗
- 6、[译] 高斯混合模型 --- python教程
本文目录导航:
高斯混合模型(GMM)和EM算法
优质回答学号:20021110074 电院 姓名:梁雪玲
【嵌牛导读】:GMM与EM算法的学习与推导。
【嵌牛鼻子】:GMM EM
【嵌牛提问】:GMM是什么?EM算法是什么?二者之间的关系?算法的推导?如何深入学习?
【嵌牛正文】:
在深度学习的路上,从头开始了解一下各项技术。本人是DL小白,连续记录我自己看的一些东西,大家可以互相交流。
本文参考:
(EM算法)
(EM算法)
一、前言
高斯混合模型(Gaussian Mixture Model)简称GMM,是一种业界广泛使用的聚类算法。它是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多种不同的分布的情况。高斯混合模型使用了期望最大(Expectation Maximization, 简称EM)算法进行训练,故此我们在了解GMM之后,也需要了解如何通过EM算法训练(求解)GMM。
二、高斯混合模型(GMM)
在了解高斯混合模型之前,我们先了解一下这种模型的具体参数模型-高斯分布。高斯分布又称正态分布,是一种在自然界中大量存在的,最为常见的分布形式。
如上图,这是一个关于身高的生态分布曲线,关于175-180对称,中间高两边低,相信大家在高中已经很了解了,这里就不再阐述。
现在,我们引用《统计学习方法》-李航 书中的定义,如下图:
根据定义,我们可以理解为,GMM是多个高斯分布的加权和,并且权重α之和等于1。这里不难理解,因为GMM最终反映出的是一个概率,而整个模型的概率之和为1,所以权重之和即为1。高斯混合模型实则不难理解,接下来我们介绍GMM的训练(求解)方法。
PS.从数学角度看,对于一个概率模型的求解,即为求其最大值。从深度学习角度看,我们希望降低这个概率模型的损失函数,也就是希望训练模型,获得最大值。训练和求解是不同专业,但相同目标的术语。
三、最大似然估计
想要了解EM算法,我们首先需要了解最大似然估计这个概念。我们通过一个简单的例子来解释一下。
假设,我们需要调查学校男女生的身高分布。我们用抽样的思想,在校园里随机抽取了100男生和100女生,共计200个人(身高样本数据)。我们假设整个学校的身高分布服从于高斯分布。但是这个高斯分布的均值u和方差∂2我们不知道,这两个参数就是我们需要估计的值。记作θ=[u, ∂]T。
由于每个样本都是独立地从p(x|θ)中抽取的,并且所有的样本都服从于同一个高斯分布p(x|θ)。那么我们从整个学校中,那么我抽到男生A(的身高)的概率是p(xA|θ),抽到男生B的概率是p(xB|θ)。而恰好抽取出这100个男生的概率,就是每个男生的概率乘积。用下式表示:
这个概率反映了,在概率密度函数的参数是θ时,得到X这组样本的概率。在公式中,x已知,而θ是未知,所以它是θ的函数。这个函数放映的是在不同的参数θ取值下,取得当前这个样本集的可能性,因此称为参数θ相对于样本集X的似然函数(likehood function)。记为L(θ)。
我们先穿插一个小例子,来阐述似然的概念。
某位同学与一位猎人一起外出打猎,一只野兔从前方窜过。只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于这位同学命中的概率,看来这一枪是猎人射中的。
这个例子所作的推断就体现了极大似然法的基本思想,我们并不知道具体是谁打的兔子,但是我们可以估计到一个看似正确的参数。回到男生身高的例子中。在整个学校中我们一次抽到这100个男生(样本),而不是其他的人,那么我们可以认为这100个男生(样本)出现的概率最大,用上面的似然函数L(θ)来表示。
所以,我们就只需要找到一个参数θ,其对应的似然函数L(θ)最大,也就是说抽到这100个男生(的身高)概率最大。这个叫做θ的最大似然估计量,记为:
因为L(θ)是一个连乘函数,我们为了便于分析,可以定义对数似然函数,运用对数的运算规则,把连乘转变为连加:
PS.这种数学方法在MFCC中我们曾经用过,可以回溯一下上一篇文章。
此时,我们要求θ,只需要使θ的似然函数L(θ)极大化,然后极大值对应的θ就是我们的估计。在数学中求一个函数的最值问题,即为求导,使导数为0,解方程式即可(前提是函数L(θ)连续可微)。在深度学习中,θ是包含多个参数的向量,运用高等数学中的求偏导,固定其中一个变量的思想,即可求出极致点,解方程。
总结而言:
最大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
求最大似然函数估计值的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;(化乘为加)
(3)求导数,令导数为0,得到似然方程;
(4)解似然方程,得到的参数即为所求。
四、EM算法
期望最大(Expectation Maximization, 简称EM)算法,称为机器学习十大算法之一。它是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。
现在,我们重新回到男女生身高分布的例子。我们通过抽取100个男生身高,并假设身高分布服从于高斯分布,我们通过最大化其似然函数,可以求的高斯分布的参数θ=[u, ∂]T了,对女生同理。但是,假如这200人,我们只能统计到其身高数据,但是没有男女信息(其实就是面对200个样本,抽取得到的每个样本都不知道是从哪个分布抽取的,这对于深度学习的样本分类很常见)。这个时候,我们需要对样本进行两个东西的猜测或者估计了。
EM算法就可以解决这个问题。假设我们想估计知道A和B两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。
在男女生身高分布的例子中,我们运用EM算法的思想。首先随便猜一下男生的高斯分布参数:均值和方差。假设均值是1.7米,方差是0.1米,然后计算出每个人更可能属于第一个还是第二个正态分布中。这是第一步,Expectation。在分开了两类之后,我们可以通过之前用的最大似然,通过这两部分,重新估算第一个和第二个分布的高斯分布参数:均值和方差。这是第二步,Maximization。然后更新这两个分布的参数。这是可以根据更新的分布,重新调整E(Expectation)步骤.如此往复,迭代到参数基本不再发生变化。
这里原作者提到了一个数学思维,很受启发,转给大家看一眼(比较鸡汤和啰嗦,大家可以跳过)
这时候你就不服了,说你老迭代迭代的,你咋知道新的参数的估计就比原来的好啊?为什么这种方法行得通呢?有没有失效的时候呢?什么时候失效呢?用到这个方法需要注意什么问题呢?呵呵,一下子抛出那么多问题,搞得我适应不过来了,不过这证明了你有很好的搞研究的潜质啊。呵呵,其实这些问题就是数学家需要解决的问题。在数学上是可以稳当的证明的或者得出结论的。那咱们用数学来把上面的问题重新描述下。(在这里可以知道,不管多么复杂或者简单的物理世界的思想,都需要通过数学工具进行建模抽象才得以使用并发挥其强大的作用,而且,这里面蕴含的数学往往能带给你更多想象不到的东西,这就是数学的精妙所在啊)
五、EM算法的简单理解方式
在提出EM算法的推导过程之前,先提出中形象的理解方式,便于大家理解整个EM算法,如果只是实现深度学习模型,个人认为可以不需要去看后面的算法推导,看这个就足够了。
坐标上升法(Coordinate ascent):
图中的直线式迭代优化的途径,可以看到每一步都会向最优值靠近,而每一步前进的路线都平行于坐标轴。那么我们可以将其理解为两个未知数的方程求解。俩个未知数求解的方式,其实是固定其中一个未知数,求另一个未知数的偏导数,之后再反过来固定后者,求前者的偏导数。EM算法的思想,其实也是如此。使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步:固定θ,优化Q;M步:固定Q,优化θ;交替将极值推向最大。
六、EM算法推导
现在很多深度学习框架可以简单调用EM算法,实际上这一段大家可以不用看,直接跳过看最后的总结即可。但是如果你希望了解一些内部的逻辑,可以看一下这一段推导过程。
假设我们有一个样本集{x(1),…,x(m)},包含m个独立的样本(右上角为样本序号)。但每个样本i对应的类别z(i)是未知的(相当于聚类),也即隐含变量。故我们需要估计概率模型p(x,z)的参数θ(在文中可理解为高斯分布),但是由于里面包含隐含变量z,所以很难用最大似然求解,但如果z知道了,那我们就很容易求解了。
首先放出似然函数公式,我们接下来对公式进行化简:
对于参数估计,我们本质上的思路是想获得一个使似然函数最大化的参数θ,现在多出一个未知变量z,公式(1)。那么我们的目标就转变为:找到适合的θ和z让L(θ)最大。
对于多个未知数的方程分别对未知的θ和z分别求偏导,再设偏导为0,即可解方程。
因为(1)式是和的对数,当我们在求导的时候,形式会很复杂。
这里我们需要做一个数学转化。我们对和的部分,乘以一个相等的函数,得到(2)式,利用Jensen不等式的性质,将(2)式转化为(3)式。(Jensen不等式数学推到比较复杂,知道结果即可)
Note:
Jensen不等式表述如下:
如果f是凸函数,X是随机变量,那么:E[f(X)]>=f(E[X])
特别地,如果f是严格凸函数,当且仅当X是常量时,上式取等号。参考链接:
至此,上面的式(2)和式(3)不等式可以写成:似然函数L(θ)>=J(z,Q),那么我们可以通过不断的最大化这个下界J(z,Q)函数,来使得L(θ)不断提高,最终达到它的最大值。
现在,我们推导出了在固定参数θ后,使下界拉升的Q(z)的计算公式就是后验概率,解决了Q(z)如何选择的问题。这一步就是E步,建立L(θ)的下界。接下来的M步,就是在给定Q(z)后,调整θ,去极大化L(θ)的下界J(在固定Q(z)后,下界还可以调整的更大)。
总结而言
EM算法是一种从不完全数据或有数据丢失的数据集(存在隐藏变量)中,求解概率模型参数的最大似然估计方法。
EM的算法流程:
1>初始化分布参数θ;
重复2>, 3>直到收敛:
2>E步骤(Expectation):根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望。作为隐藏变量的现估计值:
3>M步骤(Maximization):将似然函数最大化以获得新的参数值:
这个不断迭代的过程,最终会让E、M步骤收敛,得到使似然函数L(θ)最大化的参数θ。
在L(θ)的收敛证明:
大冷门!西甲4.9亿劲旅轰然倒下,保级队轰入4球,球迷疯狂庆祝
优质回答北京时间1月19日19点,西甲第20轮迎来一场比赛,降级区球队马略卡在主场迎战总身价高达4.9亿欧元的西甲劲旅瓦伦西亚。比赛第6分钟,马略卡就取得进球!萨尔瓦-塞维利亚罚出右侧的直接任意球,禁区内的赖洛被防守球员漏掉,他轻松头球顶进!主场球迷起立鼓掌庆祝。第22分钟,马略卡又进球了!达尼-罗德里格斯在禁区内右侧起脚射门,布季米尔在门前用膝盖把球打进。第40分钟,布季米尔接到萨尔瓦-塞维利亚的直塞球杀入禁区左侧,他晃倒身前的防守球员后劲射破门!马略卡上半场就3球领先,太疯狂了!
下半场第79分钟,马略卡又进球了!布季米尔禁区线上把球回做,达尼-罗德里格斯直接一脚劲射,球又进了。主场球迷疯狂庆祝。这是本赛季马略卡首次轰入4球。第82分钟,丹尼尔-沃斯助攻费兰-托雷斯打进扳回颜面的进球。最终,马略卡4-1大胜瓦伦西亚,爆出了一个大冷门!作为西班牙人的保级对手,马略卡的大胜对于西班牙人来说是一个坏消息。
马略卡前19轮只取得4胜3平12负的成绩,以15分排在倒数第3的位置,保级压力非常大,是武磊所在的西班牙人的直接保级对手。最近6轮联赛,马略卡都没有取胜,遭遇1平5负,情况非常糟糕。从西甲第14轮开始,马略卡接连输给莱万特、皇家贝蒂斯和巴塞罗那。虽然在第17的比赛惊险逼平塞尔塔,但随后又继续进入输球模式,接连输给了塞维利亚和格拉纳达。对于马略卡来说,要想保级就不能再这样无止境地输下去。这场比赛完胜瓦伦西亚对于马略卡来说太提气了。
瓦伦西亚一直以来都是西甲中上游的球队。本赛季前19轮联赛,瓦伦西亚取得8胜7平4负的成绩。瓦伦西亚上一次在西甲输球还要追溯到第14轮,当时在客场以1-2输给了皇家贝蒂斯。随后的5轮比赛瓦伦西亚取得3胜2平的不俗战绩,包括1-1战平皇马。在上一轮比赛,瓦伦西亚1-0小胜埃瓦尔。但没想这一次面对保级区的马略卡,瓦伦西亚会输得这么惨,让人难以置信。
本场比赛马略卡控球率只有42.8%,13脚射门6脚射正。而瓦伦西亚只有8脚射门1脚射正。瓦伦西亚实在是踢得太烂了,输得无话可说。在赛后whoscored的评分中,打进2球送出1记助攻的布季米尔得到全场最高的9.5分。送出2个助攻的萨尔瓦-塞维利亚得到8.5分。1进球1助攻的达尼-罗德里格斯得到8.7分。瓦伦西亚的两大前锋马克西-戈麦斯和加梅罗的表现都很糟糕,没能取得进球。
单高斯模型SGM & 高斯混合模型GMM
优质回答在了解高斯混合模型之前,我们先来看看什么是高斯分布,高斯分布大家应该都比较熟悉了,就是我们平时所说的正态分布,也叫高斯分布。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态分布的特点
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
若随机变量 服从一个数学期望为 、方差为 的正态分布,记为 。其中期望值 决定了其位置,标准差 决定了分布的幅度。当 = 0, = 1时,正态分布是标准正态分布。
正态分布有极其广泛的实际背景, 生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述 。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
高斯模型有单高斯模型(SGM)和混合高斯模型(GMM)两种。
概率密度函数服从上面的正态分布的模型叫做单高斯模型,具体形式如下:
当样本数据 是一维数据(Univariate)时,高斯模型的概率密度函数为:
其中: 为数据的均值, 为数据的标准差。
当样本数据 是多维数据(Univariate)时,高斯模型的概率密度函数为:
其中: 为数据的均值, 为协方差,d为数据维度。
高斯混合模型(GMM)是单高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。
用通俗一点的语言解释就是, 个单高斯模型混合在一起,生成的模型,就是高斯混合模型。这 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。
GMM是工业界使用最多的一种聚类算法。它本身是一种概率式的聚类方法,假定所有的样本数据X由K个混合多元高斯分布组合成的混合分布生成。
高斯混合模型的概率密度函数可以表示为:
其中:
是观察数据属于第 个子模型的概率, ;
是第 个的单高斯子模型的概率密度函数, 或
,具体函数见上方单高斯模型的概率密度函数。
参数估计有多种方法,有矩估计、极大似然法、一致最小方差无偏估计、最小风险估计、同变估计、最小二乘法、贝叶斯估计、极大验后法、最小风险法和极小化极大熵法等。最基本的方法是最小二乘法和极大似然法。
极大似然估计的思想是 :随机试验有多个可能的结果,但在一次试验中,有且只有一个结果会出现,如果在某次试验中,结果w出现了,则认为该结果发生的概率最大。
1)写出似然函数:
假设单个样本的概率函数为 ,对每个样本的概率函数连乘,就可以得到样本的似然函数
2)对似然函数取对数:
目的是为了让乘积变成加法,方便后续运算
3)求导数,令导数为0,得到似然方程:
和 在同一点取到最大值,所以可以通过对 求导,令导数为零,实现同个目的
4)解似然方程,得到的参数即为所求
对于单高斯模型,可以使用极大似然估计(MLE)来求解出参数的值。
单高斯模型的对数似然函数为:
上式分别对 和 求偏导数,然后令其等于0,可以得到对应的参数估计值:
如果依然按照上面的极大似然估计方法求参数
GMM的对数似然函数为:
对上式求各个参数的偏导数,然后令其等于0,并且还需要附件一个条件: 。
我们会发现,直接求导无法计算出参数。所以我们需要用其它方式去解决参数估计问题,一般情况下我们使用的是迭代的方法,用期望最大算法(Expectation Maximization,EM)进行估计。
EM算法的具体原理以及示例见我的另外一篇文章。
高斯混合模型(GMM)
优质回答 最近在实际工作中用到了高斯混合模型(Gaussian Mixture Model),遂笔记来整理记录相关知识点,以便复查巩固。
简单回顾一下本科概率论讲过的高斯模型。
高斯模型是一种常用的变量分布模型,又称正态分布,在数理统计领域有着广泛的应用。
当样本数据 X 是一维数据(Univariate)时,高斯分布遵从下方概率密度函数(Probability Density Function)(下文简称pdf)如下: 其中 为数据均值(期望), 为数据标准差(Standard deviation)。
当样本数据 X 是多维数据(Multivariate)时,高斯分布pdf为:
其中, 为数据均值(期望), 为协方差(Covariance),描述各维变量之间的相关度,D 为数据维度。
高斯混合模型可以看作是由 K 个单高斯模型组合而成的模型,这 K 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。
先来看一组数据。
所以,混合高斯模型并不是什么新奇的东西,它的本质就是融合几个单高斯模型,来使得模型更加复杂,从而产生更复杂的样本。理论上,如果某个混合高斯模型融合的高斯模型个数足够多,它们之间的权重设定得足够合理,这个混合模型可以拟合任意分布的样本。
对于单高斯模型,我们可以用最大似然法(Maximum likelihood)估算参数 的值 这里我们假设了每个数据点都是独立的(Independent),似然函数由概率密度函数(PDF)给出。
由于每个点发生的概率都很小,乘积会变得极其小,不利于计算和观察,因此通常我们用 Maximum Log-Likelihood 来计算(因为 Log 函数具备单调性,不会改变极值的位置,同时在 0-1 之间输入值很小的变化可以引起输出值相对较大的变动): 对其进行求导并令导数为0,所求出的参数就是最佳的高斯分布对应的参数。
所以最大化似然函数的意义就是:通过使得样本集的联合概率最大来对参数进行估计,从而选择最佳的分布模型。
对于高斯混合模型,Log-Likelihood 函数是: 如何计算高斯混合模型的参数呢?这里我们无法像单高斯模型那样使用最大似然法来求导求得使 likelihood 最大的参数,因为对于每个观测数据点来说,事先并不知道它是属于哪个子分布的(hidden variable),因此 log 里面还有求和,对于每个子模型都有未知的 ,直接求导无法计算。需要通过迭代的方法求解。
EM 算法是一种迭代算法,1977 年由 Dempster 等人总结提出,用于含有隐变量(Hidden variable)的概率模型参数的最大似然估计。
每次迭代包含两个步骤:
这里不具体介绍一般性的 EM 算法,(通过 Jensen 不等式得出似然函数的下界 Lower bound,通过极大化下界做到极大化似然函数,有log(E(x))>=E(log(x))),只介绍怎么在高斯混合模型里应用从来推算出模型参数。
通过 EM 迭代更新高斯混合模型参数的方法(我们有样本数据 和一个有 个子模型的高斯混合模型,想要推算出这个高斯混合模型的最佳参数):
至此,我们就找到了高斯混合模型的参数。需要注意的是,EM 算法具备收敛性,但并不保证找到全局最大值,有可能找到局部最大值。解决方法是初始化几次不同的参数进行迭代,取结果最好的那次。
想了解一下西甲足球的发展历程?有什么大事件可以分享出来吗
优质回答西班牙足球甲级联赛(La Liga)在中国则一般简称为“西甲”,是西班牙最高等级的职业足球联赛,也是欧洲及世界最高水平的职业足球联赛之一,现有参赛球队20支。西甲历史上成绩最好的7支球队分别是:皇马、巴萨、马竞、瓦伦西亚、毕尔巴鄂竞技、塞维利亚和比利亚雷亚尔。参加过西甲迄今为止所有赛季的球队有3支:皇马、巴萨和毕尔巴鄂竞技。
西甲同时亦是出产——FIFA金球奖与世界足球先生和欧洲足球先生(队报,金球奖)最多的联赛。联赛历史上,夺冠次数最多的球队是皇家马德里,共有33次;其次是巴塞罗那,有25次,马德里竞技10次。
发展历史
西班牙足球甲级联赛 成立于1928年,是目前欧洲所有联赛中最具欧战竞争力的联赛(共获得过16次欧冠奖杯),素有“明星联赛”、“ 先生联赛”之称,是培养足球先生和金球奖的摇篮。其中皇家马德里是20世纪FIFA最佳球队,巴塞罗那素有足坛“梦之队”的称号。夺冠次数最多的是皇家马德里,共有33次;其次是巴塞罗那,有24次。可以说西甲近几年主要是巴塞罗那和皇家马德里两强相争。西甲联赛的球风注重技术与进攻,具有很强的观赏性。按国际足联和欧洲足联的官方积分,西甲多年位于积分榜的首位。西甲在球员和球迷心中有相当大的号召力,世界所有顶级球星都渴望在西甲联赛中效力。
西班牙的足球运动也是英国人引进的。1872年前后,居住在乌埃瓦的英国人开始从事这项运动,并很快在西班牙居民中引起了兴趣。19世纪末,英国人又将足球引进巴斯克地区。于是,在西班牙各地陆续的成立了多家俱乐部,这其中就有著名的皇家马德里俱乐部和巴塞罗那俱乐部。1893年西班牙举行了首次正式的足球比赛,这次比赛除了一些西班牙球队外还包括一些由英国商人和海员组成的球队。1902年,该比赛正式取名为西班牙锦标赛,它是一种友谊性质的比赛。
1900年前后,大部分的足球俱乐部成立自己的小协会,即现今西班牙足协的各地区协会。从1902年起,各地区协会开始酝酿成立西班牙足球协会。1909年10月4日,在马德里俱乐部的倡议下,多家俱乐部的代表在西班牙首都成立了西班牙皇家足球协会,并于1913年加入国际足联。
1902年以前,西班牙所有的足球比赛都是地方性的,最多也只是省级或地方上的比赛。1902年,开始举办跨地区比赛,即后来的西班牙国王杯赛。西班牙国王杯赛的参赛方式多种多样:1902-1903年是自由参加;1913-1940年由各地冠军队参加;1941年,参赛的是甲级、乙级和丙级比赛的冠军球队;1942年由各地区冠军参加;1943年由14支甲级队和乙级联赛的冠、亚军共16支队伍参加;1944年可自由报名参加;1945-1947年,由甲级和乙级各14支队伍参加;1948年和1949年由甲、乙、丙三个级别的所有球队参加;1950年只有14支甲级队和32支乙级队参加;1951和1952年由12支甲级队和乙级联赛的冠亚军参加;1953年由甲级中的12支队和乙级中的32支队参加;1954-1955年由12支甲级队和乙级联赛的两个冠军参加;1956年由14支甲级队和乙级联赛的两个冠军参加;1957年和1958年由16支甲级队参加;1959-1968年由16支甲级队和32支乙级队参加;1969年,又只有16支甲级队参加;1970年经多方磋商,终于决定由甲级、乙级、丙级三个级别的球队参加,这一决定一直沿用至今。
虽然早在1902年西班牙国王杯赛就初具规模,虽然西班牙皇家足球协会于1909年10月4日就宣告成立,但直到1928年11月23日,西班牙全国联赛才千呼万唤始出来。由于西班牙国家足球队在1920年奥运会足球比赛中力夺银牌,大大的推动了西班牙足球运动的普及,各地足球俱乐部希望能创办一种新的比赛,这样就有更多的比赛机会,以增加财政收入,从而应付日益发展的足球局面。经多方面的反复磋商,西班牙的联赛终于诞生了。但第一届西班牙甲级联赛实际上是在1929年举行的。
根据西甲联赛的规定,甲级联赛的最后三支球队降入乙级联赛,乙级联赛的前三名升入甲级联赛。
2019-2020赛季西甲联赛球队名单(20支)
毕尔巴鄂竞技足球俱乐部 马德里竞技足球俱乐部 奥萨苏纳足球俱乐部 莱加内斯足球俱乐部
阿拉维斯足球俱乐部 巴塞罗那足球俱乐部 赫塔菲足球俱乐部 格拉纳达足球俱乐部
莱万特足球俱乐部 巴拉多利德足球俱乐部 维戈塞尔塔足球俱乐部 皇家西班牙人足球俱乐部
皇家马略卡足球俱乐部 皇家贝蒂斯足球俱乐部 皇家马德里足球俱乐部 皇家社会足球俱乐部
埃瓦尔竞技足球俱乐部 塞维利亚足球俱乐部 瓦伦西亚足球俱乐部 比利亚雷亚尔足球俱乐部
[译] 高斯混合模型 --- python教程
优质回答本文翻译自
上一节中探讨的k-means聚类模型简单易懂,但其简单性导致其应用中存在实际挑战。具体而言,k-means的非概率特性及简单地计算点与类蔟中心的欧式距离来判定归属,会导致其在许多真实的场景中性能较差。本节,我们将探讨高斯混合模型(GMMs),其可以看成k-means的延伸,更可以看成一个强有力的估计工具,而不仅仅是聚类。
我们将以一个标准的import开始
我们看下k-means的缺陷,思考下如何提高聚类模型。正如上一节所示,给定简单,易于分类的数据,k-means能找到合适的聚类结果。
举例而言,假设我们有些简单的数据点,k-means算法能以某种方式很快地将它们聚类,跟我们肉眼分辨的结果很接近:
从直观的角度来看,我可能期望聚类分配时,某些点比其他的更确定:举例而言,中间两个聚类之间似乎存在非常轻微的重叠,这样我们可能对这些数据点的分配没有完全的信心。不幸的是,k-means模型没有聚类分配的概率或不确定性的内在度量(尽管可能使用bootstrap 的方式来估计这种不确定性)。为此,我们必须考虑泛化这种模型。
k-means模型的一种理解思路是,它在每个类蔟的中心放置了一个圈(或者,更高维度超球面),其半径由聚类中最远的点确定。该半径充当训练集中聚类分配的一个硬截断:任何圈外的数据点不被视为该类的成员。我们可以使用以下函数可视化这个聚类模型:
观察k-means的一个重要发现,这些聚类模式必须是圆形的。k-means没有内置的方法来计算椭圆形或椭圆形的簇。因此,举例而言,假设我们将相同的数据点作变换,这种聚类分配方式最终变得混乱:
高斯混合模型(GMM)试图找到一个多维高斯概率分布的混合,以模拟任何输入数据集。在最简单的情况下,GMM可用于以与k-means相同的方式聚类。
但因为GMM包含概率模型,因此可以找到聚类分配的概率方式 - 在Scikit-Learn中,通过调用predict_proba方法实现。它将返回一个大小为[n_samples, n_clusters]的矩阵,用于衡量每个点属于给定类别的概率:
我们可以可视化这种不确定性,比如每个点的大小与预测的确定性成比例;如下图,我们可以看到正是群集之间边界处的点反映了群集分配的不确定性:
本质上说,高斯混合模型与k-means非常相似:它使用期望-最大化的方式,定性地执行以下操作:
有了这个,我们可以看看四成分的GMM为我们的初始数据提供了什么:
同样,我们可以使用GMM方法来拟合我们的拉伸数据集;允许full的协方差,该模型甚至可以适应非常椭圆形,伸展的聚类模式:
这清楚地表明GMM解决了以前遇到的k-means的两个主要实际问题。
如果看了之前拟合的细节,你将看到covariance_type选项在每个中都设置不同。该超参数控制每个类簇的形状的自由度;对于任意给定的问题,必须仔细设置。默认值为covariance_type =“diag”,这意味着可以独立设置沿每个维度的类蔟大小,并将得到的椭圆约束为与轴对齐。一个稍微简单和快速的模型是covariance_type =“spherical”,它约束了类簇的形状,使得所有维度都相等。尽管它并不完全等效,其产生的聚类将具有与k均值相似的特征。更复杂且计算量更大的模型(特别是随着维数的增长)是使用covariance_type =“full”,这允许将每个簇建模为具有任意方向的椭圆。
对于一个类蔟,下图我们可以看到这三个选项的可视化表示:
尽管GMM通常被归类为聚类算法,但从根本上说它是一种密度估算算法。也就是说,GMM适合某些数据的结果在技术上不是聚类模型,而是描述数据分布的生成概率模型。
例如,考虑一下Scikit-Learn的make_moons函数生成的一些数据:
如果我们尝试用视为聚类模型的双成分的GMM模拟数据,则结果不是特别有用:
但是如果我们使用更多成分的GMM模型,并忽视聚类的类别,我们会发现更接近输入数据的拟合:
这里,16个高斯分布的混合不是为了找到分离的数据簇,而是为了对输入数据的整体分布进行建模。这是分布的一个生成模型,这意味着GMM为我们提供了生成与我们的输入类似分布的新随机数据的方法。例如,以下是从这个16分量GMM拟合到我们原始数据的400个新点:
GMM非常方便,可以灵活地建模任意多维数据分布。
GMM是一种生成模型这一事实为我们提供了一种确定给定数据集的最佳组件数的自然方法。生成模型本质上是数据集的概率分布,因此我们可以简单地评估模型下数据的可能性,使用交叉验证来避免过度拟合。校正过度拟合的另一种方法是使用一些分析标准来调整模型可能性,例如 Akaike information criterion (AIC) 或 Bayesian information criterion (BIC) 。Scikit-Learn的GMM估计器实际上包含计算这两者的内置方法,因此在这种方法上操作非常容易。
让我们看看在moon数据集中,使用AIC和BIC函数确定GMM组件数量:
最佳的聚类数目是使得AIC或BIC最小化的值,具体取决于我们希望使用的近似值。 AIC告诉我们,我们上面选择的16个组件可能太多了:大约8-12个组件可能是更好的选择。与此类问题一样,BIC建议使用更简单的模型。
注意重点:这个组件数量的选择衡量GMM作为密度估算器的效果,而不是它作为聚类算法的效果。我鼓励您将GMM主要视为密度估算器,并且只有在简单数据集中保证时才将其用于聚类。
我们刚刚看到了一个使用GMM作为数据生成模型的简单示例,以便根据输入数据定义的分布创建新样本。在这里,我们将运行这个想法,并从我们以前使用过的标准数字语料库中生成新的手写数字。
首先,让我们使用Scikit-Learn的数据工具加载数字数据:
接下来让我们绘制前100个,以准确回忆我们正在看的内容:
我们有64个维度的近1,800位数字,我们可以在这些位置上构建GMM以产生更多。 GMM可能难以在如此高维空间中收敛,因此我们将从数据上的可逆维数减少算法开始。在这里,我们将使用一个简单的PCA,要求它保留99%的预测数据方差:
结果是41个维度,减少了近1/3,几乎没有信息丢失。根据这些预测数据,让我们使用AIC来计算我们应该使用的GMM组件的数量:
似乎大约110个components最小化了AIC;我们将使用这个模型。我们迅速将其与数据拟合并确保它已收敛合:
现在我们可以使用GMM作为生成模型在这个41维投影空间内绘制100个新点的样本:
最后,我们可以使用PCA对象的逆变换来构造新的数字:
大部分结果看起来像数据集中合理的数字!
考虑一下我们在这里做了什么:给定一个手写数字的样本,我们已经模拟了数据的分布,这样我们就可以从数据中生成全新的数字样本:这些是“手写数字”,不是单独的出现在原始数据集中,而是捕获混合模型建模的输入数据的一般特征。这种数字生成模型可以证明作为贝叶斯生成分类器的一个组成部分非常有用,我们将在下一节中看到。
今天的内容先分享到这里了,读完本文《高斯混合模型下的西甲前锋》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。
本文来自网络,不代表本站立场,转载请注明出处:https://www.zuqiumeng.cn/wenda/209813.html