【机器学习系列】GMM第一讲:两个角度认识高斯混合模型


作者:CHEONG

公众号:AI机器学习与知识图谱

研究方向:自然语言处理与知识图谱

文中含有大量公式,若需要获取含公式原稿Word文档,可关注公众号【AI机器学习与知识图谱】后回复:GMM第一讲,可添加微信号【17865190919】进学习交流群,加好友时备注来自CSDN。原创不易,转载请告知并注明出处!

本文先从两个角度简单认识一下高斯混合模型。下一章将详细介绍高斯混合模型的Learning问题解法。


一、几何角度

高斯混合模型可以看成是多个高斯分布叠加而成,即多个高斯分布的加权值,用公式表示为:

【机器学习系列】GMM第一讲:两个角度认识高斯混合模型
其中 N ( u k , Σ k ) N(u_k, \Sigma_k) N(uk​,Σk​)表示第k个高斯分布, α k \alpha_k αk​表示第k个高斯分布在混合高斯模型中占得权重大小。看下图,每个彩色的线条代表一个一个高斯分布模型,多个彩色的高斯模型叠加组成了黑色的线,即混合高斯模型。我们可以清晰的将下图和上面高斯混合模型公示对应起来。

【机器学习系列】GMM第一讲:两个角度认识高斯混合模型

上图展示的是一维高斯分布叠加而成的高斯混合模型,下图展现一个由两个二维高斯分布叠加组成的高斯混合模型:

【机器学习系列】GMM第一讲:两个角度认识高斯混合模型


二、混合模型角度

对于混合模型,需要在观测变量X的基础上引入隐变量Z,隐变量Z的含义表示混合高斯分布中的样本属于哪一个高斯分布的概率大小。如果我们假设Z是离散随机变量,若混合高斯分布*由K个高斯分布组成,则有:

C/高斯分布 c 1 c_1 c1​ c 2 c_2 c2​ c k c_k ck​
z 1 2 k
P(z) p 1 p_1 p1​ p 2 p_2 p2​ p k p_k pk​

表格中展现某个高斯混合模型由 c 1 , c 2 , . . . , c k c_1,c_2,...,c_k c1​,c2​,...,ck​个高斯分布组成,而z隐变量含义是某个样本属于第i个高斯分布的概率是 p i p_i pi​,而且有:

【机器学习系列】GMM第一讲:两个角度认识高斯混合模型

我们可以从样本生成角度再理解一下隐变量Z的含义:假设现在有一个k面不均匀的骰子,用这个骰子生成样本数据,这个骰子每个面代表一个高斯分布。由于骰子k面不均匀,所以每个面被掷中的概率分别为 p 1 , p 2 , . . . , p k p_1,p_2,...,p_k p1​,p2​,...,pk​,这样通过多次投掷骰子就可以得到一批样本,而这批样本组成的便是上表提到的那个高斯混合模型。

上一篇:把动态面板命令讲清楚了,对Stata的ado详尽解释


下一篇:PAT乙级-1034 有理数四则运算 (20分)