五、分类模型及超参数调优

2024-03-11 18:15:25

一、分类模型

1.1、决策树

优点
一、决策树易于理解和解释。我们可以通过言语就能是别人明白
二、数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性
三、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
四、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
五、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
六、可以对有许多属性的数据集构造决策树。
七、决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小。
缺点
一、在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
二、决策树处理缺失数据时的困难。
三、过度拟合问题的出现。
四、忽略数据集中属性之间的相关性。

1.2、神经网络

优点

分类的准确度高,并行分布处理能力强,分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具备联想记忆的功能等。

缺点

神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。

1.3、支持向量机（SVM）

优点
一、可以解决小样本情况下的机器学习问题。
二、可以提高泛化性能。
三、可以解决高维问题。
四、可以解决非线性问题。
五、可以避免神经网络结构选择和局部极小点问题。
缺点
一、对缺失数据敏感。
二、对非线性问题没有通用解决方案，必须谨慎选择Kernelfunction来处理。

1.4、朴素贝叶斯

优点
一、朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。
二、 NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。
缺点
一、需要知道先验概率。
二、分类决策存在错误率

1.5、Adaboost算法

优点
一、adaboost是一种有很高精度的分类器。
二、可以使用各种方法构建子分类器，Adaboost算法提供的是框架。
三、当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单。
四、简单，不用做特征筛选。
五、不用担心overfitting。
缺点
一、AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定。
二、数据不平衡导致分类精度下降。
三、训练比较耗时，每次重新选择当前分类器最好切分点。

1.6、逻辑回归

优点
一、预测结果是界于0和1之间的概率；
二、可以适用于连续性和类别性自变量；
三、容易使用和解释；

大概有这些模型

二、分类模型评估

混淆矩阵是二分类问题的多维衡量指标体系，在样本不平衡时极其有用。在混淆矩阵中，我们将少数类认为是正
例，多数类认为是负例。在决策树，随机森林这些普通的分类算法里，即是说少数类是1，多数类是0。在SVM里，
就是说少数类是1，多数类是-1。普通的混淆矩阵，一般使用{0,1}来表示。混淆矩阵阵如其名，十分容易让人混
淆，在许多教材中，混淆矩阵中各种各样的名称和定义让大家难以理解难以记忆。我为大家找出了一种简化的方式
来显示标准二分类的混淆矩阵

准确率

准确率Accuracy就是所有预测正确的所有样本除以总样本，通常来说越接近1越好。

精确度，召回率和F1 score：
精确度：

精确度Precision，又叫查准率，表示所有被我们预测为是少数类的样本中，真正的少数类所占的比例
召回率：

召回率

召回率Recall，又被称为敏感度(sensitivity)，真正率，查全率，表示所有真实为1的样本中，被我们预测正确的样
本所占的比例。
ROC曲线

建立ROC曲线的根本目的是找寻Recall和FPR之间的平衡，让我们能够衡量模型在尽量捕捉少数类的时候，误伤多数类的情况会如何变化。横坐标是FPR，代表着模型将多数类判断错误的能力，纵坐标Recall，代表着模型捕捉少数类的能力，所以ROC曲线代表着，随着Recall的不断增加，FPR如何增加。我们希望随着Recall的不断提升，FPR增加得越慢越好，这说明我们可以尽量高效地捕捉出少数类，而不会将很多地多数类判断错误。所以，我们希望看到的图像是，纵坐标急速上升，横坐标缓慢增长，也就是在整个图像左上方的一条弧线。这代表模型的效果很不错，拥有较好的捕获少数类的能力。

当然我们还不只是有这些模型评估，只不过这几种模型评估事物我们常见的，希望能够了解到。

三、超参数优化

在模型建立之后，我们将得到模型预测分数，预测分类，当然我们需要了解到怎么样将超参数进行优化。可以参考上一篇和分类模型超参数一样的。
调参

最后感谢阅读，如有不足，敬请谅解，谢谢。
路漫漫其修远兮，吾将上下而求索。

码农公寓