数据特征预处理

2024-03-16 13:26:22

一、什么是特征预处理

我们在进行特征抽取后，需要根据算法的要求，使用特定的统计方法（数学方法）将数据转换成其所需格式。对于不同的数据类型有不同的转换方法。

对于数值类型数据可采用标准的缩放，其方法有：

采用one-hot编码，像字典、文本数据进行特征抽取，转成了one-hot编码。

采用时间切分的方式。

注意：这里主要说说数值型数据的预处理方式。

　　归一化是将数据样本缩放到[0,1]的区间范围，那么为什么要这样做呢？因为在特征（维度）非常多的时候，避免某一维或者某几维对数据的影响过大，同时也是为了把不同来源的数据同一到一个度量标准下，这样比较起来才有意义。

假设现在有这样的样本数据，k-近邻算法中一个距离公式是这样的：

(200-150)^2 + (70-50)^2

　　如果两个人的体型差异较大，以至于第一个身高差的平方的值打到忽略体重差平方的值，这样是不是体重这个特征就会被忽略了。所以为了解决这个问题，我们需要将数据进行归一化。

归一化的特点：通过对原始数据进行变换把数据映射到(默认为[0,1])之间

公式：