SVM几种核函数的对比分析以及SVM算法的优缺点?

SVM几种核函数的对比分析以及SVM算法的优缺点?,第1张

SVM核函数的作用

SVM核函数是用来解决数据线性不可分而提出的,把数据从源空间映射到目标空间(线性可分空间)。

SVM中核函数的种类

1、线性核

优点:

方案首选,奥卡姆剃刀定律

简单,可以求解较快一个QP问题

可解释性强:可以轻易知道哪些feature是重要的

限制:只能解决线性可分问题

2、多项式核

基本原理:依靠升维使得原本线性不可分的数据线性可分;

升维的意义:使得原本线性不可分的数据线性可分;

优点:

可解决非线性问题

可通过主观设置幂数来实现总结的预判

缺点:

对于大数量级的幂数,不太适用

比较多的参数要选择

通常只用在已经大概知道一个比较小的幂数的情况

请点击输入图片描述

3、高斯核

优点:

可以映射到无限维

决策边界更为多样

只有一个参数,相比多项式核容易选择

缺点:

可解释性差(无限多维的转换,无法算w)

计算速度比较慢(解一个对偶问题)

容易过拟合(参数选不好时容易overfitting)

4、Sigmoid核

采用Sigmoid函数作为核函数时,支持向量机实现的就是一种多层感知器神经网络,应用SVM方法,隐含层节点数目(它确定神经网络的结构)、隐含层节点对输入节点的权值都是在设计(训练)的过程中自动确定的。而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部最小值,也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。

在实战中更多的是:

特征维数高选择线性核

样本数量可观、特征少选择高斯核(非线性核)

样本数量非常多选择线性核(避免造成庞大的计算量)

SVM的优缺点

1、SVM算法对大规模训练样本难以实施

SVM的空间消耗主要是存储训练样本和核矩阵,由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法。如果数据量很大,SVM的训练时间就会比较长,如垃圾邮件的分类检测,没有使用SVM分类器,而是使用了简单的naive bayes分类器,或者是使用逻辑回归模型分类。

2、用SVM解决多分类问题存在困难

经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。

3、对缺失数据敏感,对参数和核函数的选择敏感

支持向量机性能的优劣主要取决于核函数的选取,所以对于一个实际问题而言,如何根据实际的数据模型选择合适的核函数从而构造SVM算法。目前比较成熟的核函数及其参数的选择都是人为的,根据经验来选取的,带有一定的随意性.在不同的问题领域,核函数应当具有不同的形式和参数,所以在选取时候应该将领域知识引入进来,但是目前还没有好的方法来解决核函数的选取问题。

支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。

SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器。

SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一 。

SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。

动机

H1 不能把类别分开。H2 可以,但只有很小的间隔。H3 以最大间隔将它们分开。

将数据进行分类是机器学习中的一项常见任务。 假设某些给定的数据点各自属于两个类之一,而目标是确定新数据点将在哪个类中。对于支持向量机来说,数据点被视为p 维向量,而我们想知道是否可以用 (p-1)维超平面来分开这些点。

这就是所谓的线性分类器。可能有许多超平面可以把数据分类。最佳超平面的一个合理选择是以最大间隔把两个类分开的超平面。

因此,我们要选择能够让到每边最近的数据点的距离最大化的超平面。如果存在这样的超平面,则称为最大间隔超平面,而其定义的线性分类器被称为最大间隔分类器,或者叫做最佳稳定性感知器。

应用

1、用于文本和超文本的分类,在归纳和直推方法中都可以显著减少所需要的有类标的样本数。

2、用于图像分类。实验结果显示:在经过三到四轮相关反馈之后,比起传统的查询优化方案,支持向量机能够获取明显更高的搜索准确度。这同样也适用于图像分割系统,比如使用Vapnik所建议的使用特权方法的修改版本SVM的那些图像分割系统。

3、用于手写字体识别。

4、用于医学中分类蛋白质,超过90%的化合物能够被正确分类。基于支持向量机权重的置换测试已被建议作为一种机制,用于解释的支持向量机模型。

支持向量机权重也被用来解释过去的SVM模型。为识别模型用于进行预测的特征而对支持向量机模型做出事后解释是在生物科学中具有特殊意义的相对较新的研究领域。

以上内容参考 百度百科-支持向量机

BIOS开启SVMMode就是开启了处理器硬件虚拟化功能,这个对CPU没有不良影响。如果你平时需要跑虚拟化软件或者虚拟机(如VMware、VirtualBox)等,可以开启这个选项,可以提升这些软件的运行效率。

SVM的优缺点优点:1、使用核函数可以向高维空间进行映射2、使用核函数可以解决非线性的分类3、分类思想很简单,就是将样本与决策面的间隔最大化4、分类效果较好缺点:1、对大规模数据训练比较困难2、无法直接支持多分类,但是可以使用间接的方法来做


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11631663.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存