【ML】Gaussian Discriminant Analysis

2024-02-03 20:50:04

文章目录

模型假设.
极大似然估计参数.
与朴素贝叶斯.
与逻辑回归.

模型假设.

在【判别模型与生成模型】中已经介绍了生成模型的基本思路，这是一类针对条件概率分布 P ( x ∣ y ) P(x|y) P(x∣y) 进行建模的方法。
本篇介绍的是高斯判别分析模型GDA，它是一种生成模型，引入了每一类数据都服从或者近似服从高斯分布的假设，形式化的表述如下： y ～ B e r n o u l l i ( ϕ ) ( x ∣ y = k ) ～ N ( μ k , Σ ) k ∈ { 0 , 1 } y～Bernoulli(\phi)\\(x|y=k)～N(\mu_k,\Sigma)~~~k∈\{0,1\} y～Bernoulli(ϕ)(x∣y=k)～N(μk,Σ) k∈{0,1}
上述假设针对二分类问题，其中类别 y y y 是一个伯努利随机变量，参数为 ϕ \phi ϕ 意味着 P ( y ) = ϕ y ( 1 − ϕ ) 1 − y P(y)=\phi^y(1-\phi)^{1-y} P(y)=ϕy(1−ϕ)1−y，而后正类负类样本服从不同均值的高斯分布，即 P ( x ∣ y = k ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ k ) T Σ − 1 ( x − μ k ) ) P(x|y=k)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)) P(x∣y=k)=(2π)n/2∣Σ∣1/21exp(−21(x−μk)TΣ−1(x−μk))

极大似然估计参数.

上述假设中的参数有类别概率 ϕ \phi ϕ，样本均值 μ k \mu_k μk，以及协方差矩阵 Σ \Sigma Σ，其对数似然函数以及后续推导过程如下：
其预测结果可视化，如下图所示：

与朴素贝叶斯.

二者都是生成模型，但对于数据做出的假设不尽相同。GDA直接假设每类数据都是服从不同均值高斯分布的，而朴素贝叶斯方法则假设数据的不同特征取值具有条件独立性。
形式化表示如下，GDA假设：
NB假设：
另外，GDA由于做出了数据服从高斯分布的假设，所以大多用于连续值；而NB只能用于离散值，因为从概率意义上连续随机变量取单点的概率为0，也就是 P ( X i = x i ∣ y = k ) P(X_i=x_i|y=k) P(Xi=xi∣y=k) 为零值，后续的过程无法进行。
【朴素贝叶斯】

与逻辑回归.

在得到GDA分类器之后，如果我们考察 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x)，也就是预测结果，会发现其形状类似于逻辑回归中使用的Sigmoid函数。
回顾逻辑回归LR会发现，它对于数据是怎样分布的，并没有做出【服从高斯分布】这一假设，二者最终对预测结果 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x) 的建模却有着同样的趋势。
直观来看，GDA对于数据做出了猜测，具体地，就是说在并不知道数据真实分布的情况下，预先假定其服从高斯分布，在此基础上进行模型生成。那么猜测是好事还是坏事呢？
【利】如果数据来源的确是高斯分布，或者近似服从高斯分布(如果是影响源很多的数据，根据大数定律，会近似高斯分布)，那么GDA猜测合理，相比于LR不知道数据是高斯分布，GDA能够更好的利用数据，具体表现为样本量稍小时，也能够获得很好的效果，是为Efficient。
【弊】弊端就出现在数据分布和高斯分布相差较大时，GDA朝着错误的方向进行模型的生成。很自然地，错误假设会比LR的无为而治得到一个效果更差的模型。这也是LR的优点所在，因为不进行主观的猜测，从而最大程度信任数据集，得到一个尽可能贴合其真实分布的模型，是为Robust。
综上所述，如果我们假定不同类的数据服从高斯分布，那么最终得到的 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x) 曲线会近似是一个对数几率Logistic状的。但从LR可以看出，即使我们不做这样的假设，也能够得到对数几率曲线，所以从逻辑角度来说，GDA的假设包含了LR，是一个更强烈的假设。实际上，如果我们假设数据服从一些其他分布，例如Possion分布、 Γ \Gamma Γ分布(更普遍的说，指数分布族)，最后也能得到相似的曲线，但LR中显然没有做出这样的假设，这就是其Robust的来源。
【Digression】LR是在对 y = 1 y=1 y=1 的对数几率进行线性回归，可以视为一种广义线性回归。考察LR中后验概率模型 P ( y = 1 ∣ x ) − 1 = 1 + e x p ( − θ T x ) P(y=1|x)^{-1}=1+exp(-\theta^Tx) P(y=1∣x)−1=1+exp(−θTx)，对其进行变形得到如下表示：

事件的几率Odd的定义是事件发生的概率与其不发生概率的比值

码农公寓

文章目录

模型假设.

极大似然估计参数.

与朴素贝叶斯.

与逻辑回归.

相关文章