计算机应用技术(专升本)都考哪些科目?

计算机应用技术(专升本)都考哪些科目?,第1张

分类;数据挖掘 分类是数据挖掘的重要任务之一,分类在实际应用中有广泛的应用,如医疗事业、信用等级等。近年来,分类方法得到了发展,本文对这些方法进行了归纳分析,总结了今后分类方法发展的方向。 1引言 分类是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。分类可描述如下:输入数据,或称训练集是一条条记录组成的。每一条记录包含若干条属性,组成一个特征向量。训练集的每条记录还有一个特定的类标签与之对应。该类标签是系统的输入,通常是以往的一些经验数据。一个具体样本的形式可为样本向量:。在这里vi表示字段值,c表示类别。 分类作为数据挖掘的一个重要分支,在商业、医学、军事、体育等领域都有广泛的应用,在过去的十多年中引起很多来自不同领域学者的关注和研究。除了基本的统计分析方法外,数据挖掘技术主要有:神经网络、决策树、粗糙集、模糊集、贝叶斯网络、遗传算法、k近邻分类算法与支持向量机等。 不同的分类器有不同的特点,目前有三种分类器评价或比较尺度:1)预测准确度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10折分层交叉验证法;2)计算复杂度。计算复杂度依赖于具体的实现细节和硬件环境,空间和时间的复杂度问题将是非常重要的一个环节;3)模型描述的简洁度。模型描述越简洁越受欢迎,如采用规则表示的分类器结果就较容易理解,而神经网络方法产生的结果就难以理解。不同的算法有不同的特点,充分认识各算法的优点和存在的缺陷,掌握其适应的环境,方便研究者明确算法的改进和研究,本文主要对算法的研究现状进行分析和比较。2分类方法的发展 21决策树的分类方法 ID3算法是较早的决策树归纳算法。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C45。ID3选择增益值最大的属性划分训练样本,其目的是进行分裂时系统的熵最小,从而提高算法的运算速度和精确度。这种方法的优点是描述简单、分类速度快和产生的分类规则易于理解;但缺点是抗噪性差、训练正例和反例较难控制以及是非递增学习算法。C45是ID3的改进算法,不仅可以处理离散值属性,还能处理连续值属性,但是也不能进行增量学习。 SLIQ是一个能够处理连续及离散属性的决策树分类器。该算法针对C45分类算法产生的样本反复扫描和排序低效问题,采用了预排序和宽度优先两项技术。预排序技术消除了结点数据集排序,宽度优先为决策树中每个叶结点找到了最优分裂标准。这些技术结合使SLIQ能够处理大规模的数据集,并能对具有大量的类、属性与样本的数据集分类;并且该算法代价不高且生成紧凑精确的树。缺点是内存驻留数据会随着输入纪录数线性正比增大,限制了分类训练的数据量。 SPRINT方法完全不受内存的限制,并且处理速度很快,且可扩展。为了减少驻留于内存的数据量,该算法进一步改进了决策树算法的数据结构,去掉了SLIQ中需要驻留于内存的类别列表,将类别合并到每个属性列表中。但是对非分裂属性的属性列表进行分裂却比较困难,因此该算法的可扩展性较差。 22贝叶斯分类方法 贝叶斯分类是统计学分类方法,是利用Bayes定理来预测一个未知类别的样本可能属性,选择其可能性最大的类别作为样本的类别。朴素贝叶斯网络作为一种快速而高效的算法而受到人们的关注,但是其属性独立性并不符合现实世界,这样的假设降低了朴素贝叶斯网络的性能;但是如果考虑所有属性之间的依赖关系,使其表示依赖关系的能力增强,允许属性之间可以形成任意的有向图,由于其结构的任意性,这样使得贝叶斯网络的结构难以学习,然而,贝叶斯网络的学习是一个NP-Complete问题。 目前对于贝叶斯网络的改进主要包括了:1)基于属性选择的方法,保证选择的属性之间具有最大的属性独立性,其中代表算法是由Langley提出SBC;2)扩展朴素贝叶斯网络的结构,考虑属性之间的依赖关系,降低属性独立性假设,其中代表算法是由Friedman提出树扩展的贝叶斯网络TAN;3)基于实例的学习算法。 其中1)、2)的算法是根据训练集合构造一个分类器,是一种积极的学习算法,3)的方法是一种消极的学习算法。 23粗糙集分类方法 粗糙集理论是一种刻划不完整和不确定性数据的数学工具,不需要先验知识,能有效处理各种不完备,从中发现隐含的知识,并和各种分类技术相结合建立起能够对不完备数据进行分类的算法。粗糙集理论包含求取数据中最小不变集和最小规则集的理论,即约简算法,这也是粗糙集理论在分类中的主要应用。 24神经网络 神经网络是分类技术中重要方法之一,是大量的简单神经元按一定规则连接构成的网络系统。它能够模拟人类大脑的结构和功能,采用某种学习算法从训练样本中学习,并将获取的知识存储在网络各单元之间的连接权中。神经网络主要有前向神经网络、后向神经网络和自组织网络。目前神经网络分类算法研究较多集中在以BP为代表的神经网络上。文献提出了粒子群优化算法用于神经网络训练,在训练权值同时删除冗余连接,与BP结果比较表明算法的有效性。文献提出旋转曲面变换粒子群优化算法的神经网络,使待优化函数跳出局部极值点,提高训练权值的效率。 25K近邻分类算法 K近邻分类算法是最简单有效的分类方法之一,是在多维空间中找到与未知样本最近邻的K个点,并根据这K个点的类别判断未知样本的类别。但是有两个最大缺点:1)由于要存储所有的训练数据,所以对大规模数据集进行分类是低效的;2)分类的效果在很大程度上依赖于K值选择的好坏。文献提出一种有效的K近邻分类算法,利用向量方差和小波逼近系数得出两个不等式,根据这两个不等式,分类效率得到了提高。文献提出用粒子群优化算法对训练样本进行有指导的全局随机搜索,掠过大量不可能的K向量,该算法比KNN方法计算时间降低了70%。 26基于关联规则挖掘的分类方法 关联分类方法一般由两部组成:第一步用关联规则挖掘算法从训练数据集中挖掘出所有满足指定支持度和置信度的类关联规则,支持度用于衡量关联规则在整个数据集中的统计重要性,而置信度用于衡量关联规则的可信程度;第二步使用启发式方法从挖掘出的类关联规则中挑选出一组高质量的规则用于分类。 Agrawal等人于1993年提出了算法AIS和SETM,1994年又提出了Apriori和AprioriTid,后两个算法和前两个算法的不同之处在于:在对数据库的一次遍历中,那些候选数据项目被计数以及产生候选数据项目集的方法。但前两者方法的缺点是会导致许多不必要的数据项目集的生成和计数。由于目前日常生活中如附加邮递、目录设计、追加销售、仓储规划都用到了关联规则,因此首先要考虑关联规则的高效更新问题,Dwcheung提出了增量式更新算法FUP,它的基本框架和Apriori是一致的;接着冯玉才等提出了两种高效的增量式更新算法IUA和PIUA,主要考虑当最小支持度和最小可信度发生变化时,当前交易数据库中关联规则的更新问题。 27支持向量机方法的发展 支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础之上的。根据有限样本、在模型的复杂性和学习能力之间寻求折衷,以期获得最好推广能力。它非常适合于处理非线性问题。分类问题是支持向量机最为成熟和应用最广的算法。但是由于SVM的训练时间会随着数据集的增大而增加,所以在处理大规模数据集时,SVM往往需要较长的训练时间。 文献提出了一种多分类问题的改进支持向量机,将GA和SVM相结合,构造了一种参数优化GA-SVM,该方法在多分类非平衡问题上,提高了分类正确率,也提高了学习时间。文献提出了一种新的支持向量机增量算法,提出了一种误分点回溯增量算法,先找出新增样本中误分的样本,然后在原样本集寻找距误分点最近的样本作为训练集的一部分,重新构建分类器,有效保留样本的分类,结果表明比传统的SVM有更高的分类精度。 28基于群的分类方法 这种方法可以看作是进化算法的一个新的分支,它模拟了生物界中蚁群、鱼群和鸟群在觅食或者逃避敌人时的行为,对基于群的分类方法研究,可以将这种方法分为两类:一类是蚁群算法,另一类称为微粒群算法。 文献提出了一种基于蚁群算法的分类规则挖掘算法,针对蚁群算法计算时间长的缺点,提出了一种变异算子,用公用数据作试验将其结果与C45和Ant-Miner比较,显示变异算子节省了计算时间。 PSO是进化计算的一个新的分支,它模拟了鸟群或鱼群的行为。在优化领域中,PSO可以与遗传算法相媲美。文献提出了基于粒子群优化算法的模式分类规则获取,算法用于Iris数据集进行分类规则的提取,与其他算法比较显示不仅提高了正确率,而且较少了计算时间。文献将PSO运用于分类规则提取,对PSO进行了改进,改进的算法与C45算法比较,试验结果表明,在预测精度和运行速度上都占优势。 由于PSO算法用于分类问题还处于初期,因此要将其运用到大规模的应用中还要大量的研究。3总结 分类是数据挖掘的主要研究内容之一,本文对分类算法进行了分析,从而便于对已有算法进行改进。未来的数据分类方法研究更多地集中在智能群分类领域,如蚁群算法、遗传算法、微粒群算法等分类研究上以及混合算法来进行分类。总之,分类方法将朝着更高级、更多样化和更加综合化的方向发展。参考文献: 邵峰晶,于忠清.数据挖掘原理与算法.中国水利水电出版社,2003 陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,2004 LJiang,HZhang,ZCaiandJSu,EvolutionalNaiveBayes,Proceedingsofthe2005InternationalSymposiumonIntelligentComputationanditsApplication,ISICA2005,pp344-350,ChinaUniversityofGeosciencesPress Langley,P,Sage,S,InductionofselectiveBayesianclassifiers,inProceedingsoftheTenthConferenceonUncertaintyinArtificialIntelligence,pp339-406 Friedman,N,Greiger,D,Goldszmidt,M,BayesianNetworkClassifiers,MachineLearning29103-130 TMitchellMachineLearningNewYork:McGraw-HillPress,1997 曾黄麟.粗糙理论以及应用.重庆大学出版社,1996 高海兵、高亮等.基于粒子群优化的神经网络训练算法研究.电子学报,2004,9 熊勇,陈德钊,胡上序.基于旋转曲面变换PSO算法的神经网络用于胺类有机物毒性分类.分析化学研究报告,2006,3 乔玉龙,潘正祥,孙圣和.一种改进的快速K近邻分类算法.电子学报,2005,6 张国英,沙芸,江惠娜.基于粒子群优化的快速KNN分类算法.山东大学学报,2006,6 黄景涛,马龙华,钱积新.一种用于多分类问题的改进支持向量机.浙江大学学报,2004,12 毛建洋,黄道.一种新的支持向量机增量算法.华东理工大学学报,2006,8 吴正龙,王儒敬等.基于蚁群算法的分类规则挖掘算法.计算机工程与应用,2004 高亮,高海兵等.基于粒子群优化算法的模式分类规则获取.华中科技大学学报.2004,11 延丽萍,曾建潮.利用多群体PSO生成分类规则.计算机工程与科学,2007,2


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/dianzi/13245860.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-25
下一篇 2023-06-25

发表评论

登录后才能评论

评论列表(0条)

保存