【笔记】Pearson Correlation Coefficient

Intro

衡量线性关系,一般要求变量(近似地)服从正态分布,并且是连续性的。
在进行归一化之后,Pearson 相关系数实际上类似于先进行中心化再做余弦相似度。
给出的结果,负相关为 -1,正相关为 1.

Pearson Correlation Coefficient 是用协方差除以两个变量的标准差得到的
输入两组数据,Pearson 相关系数约等于先进行Z-Score标准化,再给出两组数据的向量夹角的余弦。

数据归一化之后:
Pearson相关性系数与余弦相似度等价;
并且,平方欧氏距离 = 2|Vector|(1-Pearson)

但是它们在本质上不同。
Pearson 相关系数是用于衡量变量间的线性关系,而不像欧氏距离那样是非相似性的一种度量
或者说,Pearson 相关系数,类似于 Spearman ,通常是用于分析变量相关性的;
而余弦相似度/(平方)欧氏距离通常是分析个案的(非)相似度的。

举个例子,给出两组数据。用可视化的角度来看:
计算相关性,可能会先把这两组数据作为 x 和 y 画出散点图
计算相似度,可能会把这两组数据看成多维空间上的两个点。


Variance

嗯,上面四舍五入都是废话,下面补点正经的高中数学。

方差是什么?给定随机变量 \(X\),并且 \(\mathbb{E}(X)=\mu\)。

\[\sigma^2=\mathbb{E}[(X-\mu)^2] \]

……很明显这需要知道 \(X\) 的,具体的分布。这不好,所以就有了我们中学或者小学学过的,方差的近似

\[S^2=\frac{\sum\limits_{i=1}^n(X_i-\mu)^2}{n} \]

满足

\[\mathbb{E}(S^2)=\sigma^2 \]

根据中心极限定理,\(S^2\) 是 \(\sigma^2\) 的一个无偏估计量。

好,那么问题来了。有时候我们甚至不知道 \(\mu\)。但是我们知道 \(\overline{X}\),
有一个替代方案:

\[\mathbb{E}\left(\frac{\sum\limits_{i=1}^n(X_i-\overline{X})^2}{n-1}\right)=\sigma^2 \]

根据中心极限定理,\(\frac{\sum\limits_{i=1}^n(X_i-\overline{X})^2}{n-1}\) 是 \(\sigma^2\) 的一个无偏估计量


Covariance

然后类似地有协方差(Covariance),它是随机变量 \(X,Y\) 相关程度的度量

\[\frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{n-1} \]

当然这东西也是一个近似值。
实际上:

\[\begin{array}{rcl}\operatorname{cov}(X,Y)&=&\mathbb{E}\{[X-\mathbb{E}(X)]\cdot[Y-\mathbb{E}(Y)]\}\\ &=&\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y)\end{array}\]

协方差为 0 的两个随机变量称为是不相关的。
如果两个变量的变化趋势一致,即其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。[1]


PPMCC/PCCs (Pearson Correlation Coefficient)

Pearson's r。

总体Pearson相关系数

\[\rho(X,Y)=\frac{\operatorname{cov}(X,Y)}{\sigma_X\sigma_Y} \]

同样地,有近似值/样本Pearson相关系数:

\[r=\frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum\limits_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum\limits_{i=1}^n(Y_i-\overline{Y})^2}} \]

或者

\[r=\frac{\sum\limits_{i=1}^n\left(\frac{X_i-\overline{X}}{\sigma_X}\right)\left(\frac{Y_i-\overline{Y}}{\sigma_Y}\right)}{n-1} \]

上一篇:WebService基于SoapHeader实现安全认证(一)


下一篇:pip 在Windows 10下的配置文件在哪里