机器学习分类算法中必须要懂的四种算法_技术

本文主要介绍了 4 种应用比较普遍的的机器学习算法，但是机器学习算法还有其他很多不同的算法，大家感兴趣的可以自己去了解。

朴素贝叶斯分类

朴素贝叶斯分类是基于贝叶斯定理与特征条件独立假设的分类方法，发源于古典数学理论，拥有稳定的数学基础和分类效率。它是一种十分简单的分类算法，当然简单并不一定不好用。通过对给出的待分类项求解各项类别的出现概率大小，来判断此待分类项属于哪个类别，而在没有多余条件的情况下，朴素贝叶斯分类会选择在已知条件下，概率最大的类别。

贝叶斯分类算法的实质就是计算条件概率的公式。在事件 B 发生的条件下，事件 A 发生的概率为 P（A | B）来表示。

P（A | B）的概率为

。在日常应用中，我们经常可以直接得出 P（A | B），而 P（B | A）直接得到比较困难，通过贝叶斯定理就可以通过 P（A | B）获得 P（B | A）。

而朴素贝叶斯分类的正式定义则如下：

朴素贝叶斯算法在执行文本分类等工作是会有很好的效果，比如朴素贝叶斯算法常被使用于垃圾邮件的过滤分类中。

SVM算法

支持向量机（Support Vector Machine，常简称为 SVM）是一种监督式学习的方法，可广泛地应用于统计分类以及回归分析。支持向量机属于一般化线性分类器，它能够同时最小化经验误差与最大化几何边缘区，因此支持向量机也被称为最大边缘区分类器。

同时支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。

SVM 算法虽然存在难以训练和难以解释的问题，但是在非线性可分问题上的表现十分优秀，在非线性可分问题中常选择 SVM 算法。

基于 KNN 的算法

K - 近邻算法，简称 KNN（k-Nearest Neighbor），它同样是一个比较简单的分类、预测算法。对选取与待分类、待预测数据的最相似的 K 个训练数据，通过对这 K 个数据的结果或者分类标号取平均、取众数等方法得到待分类、待预测数据的结果或者分类标号。

K - 近邻算法如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。在不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形）的情况下，我们可以从它的临近的样本进行判断。