【ML】Gaussian Discriminant Analysis

文章目录

模型假设.

  • 判别模型与生成模型中已经介绍了生成模型的基本思路,这是一类针对条件概率分布 P ( x ∣ y ) P(x|y) P(x∣y) 进行建模的方法。
  • 本篇介绍的是高斯判别分析模型GDA,它是一种生成模型,引入了每一类数据都服从或者近似服从高斯分布的假设,形式化的表述如下: y ~ B e r n o u l l i ( ϕ ) ( x ∣ y = k ) ~ N ( μ k , Σ )     k ∈ { 0 , 1 } y~Bernoulli(\phi)\\(x|y=k)~N(\mu_k,\Sigma)~~~k∈\{0,1\} y~Bernoulli(ϕ)(x∣y=k)~N(μk​,Σ)   k∈{0,1}
  • 上述假设针对二分类问题,其中类别 y y y 是一个伯努利随机变量,参数为 ϕ \phi ϕ 意味着 P ( y ) = ϕ y ( 1 − ϕ ) 1 − y P(y)=\phi^y(1-\phi)^{1-y} P(y)=ϕy(1−ϕ)1−y,而后正类负类样本服从不同均值的高斯分布,即 P ( x ∣ y = k ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ k ) T Σ − 1 ( x − μ k ) ) P(x|y=k)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)) P(x∣y=k)=(2π)n/2∣Σ∣1/21​exp(−21​(x−μk​)TΣ−1(x−μk​))

极大似然估计参数.

  • 上述假设中的参数有类别概率 ϕ \phi ϕ,样本均值 μ k \mu_k μk​,以及协方差矩阵 Σ \Sigma Σ,其对数似然函数以及后续推导过程如下:
    【ML】Gaussian Discriminant Analysis
  • 其预测结果可视化,如下图所示:
    【ML】Gaussian Discriminant Analysis

与朴素贝叶斯.

  • 二者都是生成模型,但对于数据做出的假设不尽相同。GDA直接假设每类数据都是服从不同均值高斯分布的,而朴素贝叶斯方法则假设数据的不同特征取值具有条件独立性。
  • 形式化表示如下,GDA假设:
    【ML】Gaussian Discriminant Analysis
  • NB假设:
    【ML】Gaussian Discriminant Analysis
  • 另外,GDA由于做出了数据服从高斯分布的假设,所以大多用于连续值;而NB只能用于离散值,因为从概率意义上连续随机变量取单点的概率为0,也就是 P ( X i = x i ∣ y = k ) P(X_i=x_i|y=k) P(Xi​=xi​∣y=k) 为零值,后续的过程无法进行。
  • 朴素贝叶斯

与逻辑回归.

  • 在得到GDA分类器之后,如果我们考察 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x),也就是预测结果,会发现其形状类似于逻辑回归中使用的Sigmoid函数。
  • 回顾逻辑回归LR会发现,它对于数据是怎样分布的,并没有做出【服从高斯分布】这一假设,二者最终对预测结果 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x) 的建模却有着同样的趋势。
  • 直观来看,GDA对于数据做出了猜测,具体地,就是说在并不知道数据真实分布的情况下,预先假定其服从高斯分布,在此基础上进行模型生成。那么猜测是好事还是坏事呢?
  • 】如果数据来源的确是高斯分布,或者近似服从高斯分布(如果是影响源很多的数据,根据大数定律,会近似高斯分布),那么GDA猜测合理,相比于LR不知道数据是高斯分布,GDA能够更好的利用数据,具体表现为样本量稍小时,也能够获得很好的效果,是为Efficient
  • 】弊端就出现在数据分布和高斯分布相差较大时,GDA朝着错误的方向进行模型的生成。很自然地,错误假设会比LR的无为而治得到一个效果更差的模型。这也是LR的优点所在,因为不进行主观的猜测,从而最大程度信任数据集,得到一个尽可能贴合其真实分布的模型,是为Robust
  • 综上所述,如果我们假定不同类的数据服从高斯分布,那么最终得到的 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x) 曲线会近似是一个对数几率Logistic状的。但从LR可以看出,即使我们不做这样的假设,也能够得到对数几率曲线,所以从逻辑角度来说,GDA的假设包含了LR,是一个更强烈的假设。实际上,如果我们假设数据服从一些其他分布,例如Possion分布、 Γ \Gamma Γ分布(更普遍的说,指数分布族),最后也能得到相似的曲线,但LR中显然没有做出这样的假设,这就是其Robust的来源。
  • DigressionLR是在对 y = 1 y=1 y=1 的对数几率进行线性回归,可以视为一种广义线性回归。考察LR中后验概率模型 P ( y = 1 ∣ x ) − 1 = 1 + e x p ( − θ T x ) P(y=1|x)^{-1}=1+exp(-\theta^Tx) P(y=1∣x)−1=1+exp(−θTx),对其进行变形得到如下表示:
    【ML】Gaussian Discriminant Analysis

事件的几率Odd的定义是事件发生的概率与其不发生概率的比值

上一篇:android-使用应用内结算购买完整版游戏


下一篇:2011年上半年 系统分析师 上午试卷 综合知识 软考真题【含答案和答案解析】