数据挖掘算法需要什么知识_工具

主要是数据挖掘算法

有分类，有bayes、决策树、svm等；

聚类，有K-means、isodata等；

关联，有apriori和改进的apriori算法，

序列分析等方面的算法。

这些都是正统的，基于数据库的数据挖掘必备知识。

如果是基于web的，则最好还知道海量网页爬虫、网页结构解析、网页内容提取。

第一题结果：

#include <stdioh>

#define DATALEN 27

int data[DATALEN]=

{13, 15, 16,

16, 19, 20,

20, 21, 22,

22, 25, 25,

25, 25, 30,

33, 33, 35,

35, 35, 35,

36, 40, 45,

46, 52, 70};

int nSmoothByMeans[DATALEN]={0};

int nSmoothByMedians[DATALEN]={0};

int nSmoothByBoundaries[DATALEN]={0};

void SmoothByMeans(int depth)

{

int i=0,j=0;

int sum=0 , mean=0;

for(i=0;i<27;i=i+3)

{

for (j=i;j<i+depth;j++)

{

sum+=data[j];

}

mean = sum/depth;

for (j=i;j<i+depth;j++)

{

nSmoothByMeans[j]=mean;

}

sum = 0;

}

void SmoothByMedians(int depth)

{

int i=0,j=0;

for(i=1;i<27;i=i+3)

{

for (j=i-1;j<i+depth;j++)

{

nSmoothByMedians[j]=data[i];

}

void SmoothByBoundaries(int depth)

{

int i=0,j=0;

for(i=0;i<27;i++)

{

nSmoothByBoundaries[i]=data[i];

}

for (i=1;i<27;i=i+3)

{

if (data[i]-data[i-1]>data[i+1]-data[i])

{

nSmoothByBoundaries[i]=data[i+1];

}

else

{

nSmoothByBoundaries[i]=data[i-1];

}

void main()

{

int depth = 3;

int i=0;

int j=0;

SmoothByMeans(3);

SmoothByMedians(3);

SmoothByBoundaries(3);

printf("原始数据：\n");

for(i=0,j=1;i<27;i=i+3,++j)

{

printf("Bin %d : %d,%d,%d\n",

j,data[i],data[i+1],data[i+2]);

}

printf("使用平均值：\n");

for(i=0,j=1;i<27;i=i+3,++j)

{

printf("Bin %d : %d,%d,%d\n",

j,nSmoothByMeans[i],nSmoothByMeans[i+1],nSmoothByMeans[i+2]);

}

printf("使用中值：\n");

for(i=0,j=1;i<27;i=i+3,++j)

{

printf("Bin %d : %d,%d,%d\n",

j,nSmoothByMedians[i],nSmoothByMedians[i+1],nSmoothByMedians[i+2]);

}

printf("使用边界值：\n");

for(i=0,j=1;i<27;i=i+3,++j)

{

printf("Bin %d : %d,%d,%d\n",

j,nSmoothByBoundaries[i],nSmoothByBoundaries[i+1],nSmoothByBoundaries[i+2]);

}

磨刀不误砍柴工。在学习数据挖掘之前应该明白几点：

数据挖掘目前在中国的尚未流行开，犹如屠龙之技。

数据初期的准备通常占整个数据挖掘项目工作量的70%左右。

数据挖掘本身融合了统计学、数据库和机器学习等学科，并不是新的技术。

数据挖掘技术更适合业务人员学习（相比技术人员学习业务来的更高效）

数据挖掘适用于传统的BI（报表、OLAP等）无法支持的领域。

数据挖掘项目通常需要重复一些毫无技术含量的工作。

如果你阅读了以上内容觉得可以接受，那么继续往下看。

学习一门技术要和行业靠拢，没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的（十年前做网页设计都能成立公司），一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了，一方面有利于抓住用户痛点和刚性需求，另一方面能够累计行业经验，使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到，这样会失去你的核心竞争力。

一、目前国内的数据挖掘人员工作领域大致可分为三类。

1）数据分析师：在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询，商务智能，出分析报告。

2）数据挖掘工程师：在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。

3）科学研究方向：在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。

二、说说各工作领域需要掌握的技能。

(1)数据分析师

需要有深厚的数理统计基础，但是对程序开发能力不做要求。

需要熟练使用主流的数据挖掘（或统计分析）工具如Business Analytics and Business Intelligence Software（SAS）、SPSS、EXCEL等。

需要对与所在行业有关的一切核心数据有深入的理解，以及一定的数据敏感性培养。

经典图书推荐：《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。

(2)数据挖掘工程师

需要理解主流机器学习算法的原理和应用。

需要熟悉至少一门编程语言如（Python、C、C++、Java、Delphi等）。

需要理解数据库原理，能够熟练 *** 作至少一种数据库（Mysql、SQL、DB2、Oracle等），能够明白MapReduce的原理 *** 作以及熟练使用Hadoop系列工具更好。

经典图书推荐：《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。

(3)科学研究方向

需要深入学习数据挖掘的理论基础，包括关联规则挖掘（Apriori和FPTree）、分类算法（C45、KNN、Logistic Regression、SVM等) 、聚类算法（Kmeans、Spectral Clustering）。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。

相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing，因为R软件是完全免费的，而且开放的社区环境提供多种附加工具包支持，更适合进行统计计算分析研究。虽然目前在国内流行度不高，但是强烈推荐。

可以尝试改进一些主流算法使其更加快速高效，例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。

需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD，ICML，IJCAI，Association for the Advancement of Artificial Intelligence，ICDM 等等；还有数据挖掘相关领域期刊：ACM Transactions on Knowledge Discovery from Data，IEEE Transactions on Knowledge and Data Engineering，Journal of Machine Learning Research Homepage，IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。

可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ，Kaggle: Go from Big Data to Big Analytics等。

可以尝试为一些开源项目贡献自己的代码，比如Apache Mahout: Scalable machine learning and data mining ,myrrix等（具体可以在SourceForge或GitHub上发现更多好玩的项目）。

经典图书推荐：《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》，英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

三、以下是通信行业数据挖掘工程师的工作感受。

真正从数据挖掘项目实践的角度讲，沟通能力对挖掘的兴趣爱好是最重要的，有了爱好才可以愿意钻研，有了不错的沟通能力，才可以正确理解业务问题，才能正确把业务问题转化成挖掘问题，才可以在相关不同专业人才之间清楚表达你的意图和想法，取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力，是很难学到的；而其他的相关专业知识谁都可以学，算不上个人发展的核心竞争力。

说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了，对不起，我没有别的意思，你们的专业对于数据挖掘都很重要，大家本来就是一个整体的，但是作为单独一个个体的人来说，精力有限，时间有限，不可能这些领域都能掌握，在这种情况下，选择最重要的核心，我想应该是数据挖掘技能和相关业务能力吧（从另外的一个极端的例子，我们可以看，比如一个迷你型的挖掘项目，一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库，但是简单的Excel就足以胜任高打6万个样本的数据处理；他虽然不懂专业的展示展现技能，但是只要他自己看的懂就行了，这就无需什么展示展现；前面说过，统计技能是应该掌握的，这对一个人的迷你项目很重要；他虽然不懂编程，但是专业挖掘工具和挖掘技能足够让他 *** 练的；这样在迷你项目中，一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了，甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路，试问就是这个迷你项目，单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家，都是无法胜任的）。这从另一个方面也说明了为什么沟通能力的重要，这些个完全不同的专业领域，想要有效有机地整合在一起进行数据挖掘项目实践，你说没有好的沟通能力行吗？

数据挖掘能力只能在项目实践的熔炉中提升、升华，所以跟着项目学挖掘是最有效的捷径。国外学习挖掘的人都是一开始跟着老板做项目，刚开始不懂不要紧，越不懂越知道应该学什么，才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的，但是从网上的一些论坛看，很多都是纸上谈兵，这样很浪费时间，很没有效率。

另外现在国内关于数据挖掘的概念都很混乱，很多BI只是局限在报表的展示和简单的统计分析，却也号称是数据挖掘；另一方面，国内真正规模化实施数据挖掘的行业是屈指可数（银行、保险公司、移动通讯），其他行业的应用就只能算是小规模的，比如很多大学都有些相关的挖掘课题、挖掘项目，但都比较分散，而且都是处于摸索阶段，但是我相信数据挖掘在中国一定是好的前景，因为这是历史发展的必然。

讲到移动方面的实践案例，如果你是来自移动的话，你一定知道国内有家叫华院分析的公司（申明，我跟这家公司没有任何关系，我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司，觉得华院还不错，比很多徒有虚名的大公司来得更实际），他们的业务现在已经覆盖了绝大多数中国省级移动公司的分析挖掘项目，你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起家，自己不懂不要紧，一边自学一边开始拓展客户，到现在在中国的移动通讯市场全面开花，的确佩服佩服呀。他们最开始都是用EXCEL处理数据，用肉眼比较选择比较不同的模型，你可以想象这其中的艰难吧。

至于移动通讯的具体的数据挖掘的应用，那太多了，比如不同话费套餐的制订、客户流失模型、不同服务交叉销售模型、不同客户对优惠的d性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型，太多了，记住，从客户的需求出发，从实践中的问题出发，移动中可以发现太多的挖掘项目。最后告诉你一个秘密，当你数据挖掘能力提升到一定程度时，你会发现无论什么行业，其实数据挖掘的应用有大部分是重合的相似的，这样你会觉得更轻松。

1基于历史的MBR分析

基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute)，通常找寻最相似的案例来做比较。

MBR中有两个主要的要素，分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来，以供预测之用。

MBR的优点是它容许各种型态的数据，这些数据不需服从某些假设。另一个优点是其具备学习能力，它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据，有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时，不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2购物篮分析

购物篮分析(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一起商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品，找出相关的联想(association)规则，企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说，零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。

购物篮分析基本运作过程包含下列三点：

1 选择正确的品项：这里所指的正确乃是针对企业体而言，必须要在数以百计、千计品项中选择出真正有用的品项出来。

2 经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

3 克服实际上的限制：所选择的品项愈多，计算所耗费的资源与时间愈久(呈现指数递增)，此时必须运用一些技术以降低资源与时间的损耗。

购物篮分析技术可以应用在下列问题上：针对xyk购物，能够预测未来顾客可能购买什么。对于电信与金融服务业而言，经由购物篮分析能够设计不同的服务组合以扩大利润。保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。对病人而言，在疗程的组合上，购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3决策树

决策树(Decision Trees)在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。

4遗传算法

遗传算法(Genetic Algorithm)学习细胞演化的过程，细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似，它必须预先建立好一个模式，再经由一连串类似产生新细胞过程的运作，利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合，最后仅有最吻合的结果能够存活，这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现，一般可用来辅助记忆基础推理法与类神经网络的应用。

5聚类分析

聚类分析(Cluster Detection)这个技术涵盖范围相当广泛，包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体，在许许多多的分析中，刚开始都运用到群集侦测技术，以作为研究的开端。

6连接分析

连接分析(Link Analysis)是以数学中之图形理论(graph theory)为基础，藉由记录之间的关系发展出一个模式，它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于企业的研究。

7OLAP分析

严格说起来，OLAP(On-Line Analytic Processing;OLAP)分析并不算特别的一个数据挖掘技术，但是透过在线分析处理工具，使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般，透过图表或图形等方式显现，对一般人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8神经网络

神经网络是以重复学习的方法，将一串例子交与学习，使其归纳出一足以区分的样式。若面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结果，乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。

9判别分析

当所遭遇问题它的因变量为定性(categorical)，而自变量(预测变量)为定量(metric)时，判别分析为一非常适当之技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体 —判别分析 (Two-Group Discriminant Analysis);若由多个群体构成，则称之为多元判别分析(Multiple Discriminant Analysis;MDA)。

a 找出预测变量的线性组合，使组间变异相对于组内变异的比值为最大，而每一个线性组合与先前已经获得的线性组合均不相关。

b 检定各组的重心是否有差异。

c 找出哪些预测变量具有最大的区别能力。

d 根据新受试者的预测变量数值，将该受试者指派到某一群体。

10逻辑回归分析

当判别分析中群体不符合正态分布假设时，逻辑回归分析是一个很好的替代方法。逻辑回归分析并非预测事件(event)是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零;当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开始减小，故机率值介于0与1之间。

试论贝叶斯分类、决策树分类分类挖掘算法的优势与劣势，以及解决维度效应的策略

引言数据分类是指按照分析对象的属性、特征，建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一，主要是通过分析训练数据样本，产生关于类别的精确描述。这种类别通常由分类规则组成，可以用来对未来的数据进行分类和预测。分类技术解决问题的关键是构造分类器。一．数据分类数据分类一般是两个步骤的过程：第1步：建立一个模型，描述给定的数据类集或概念集（简称训练集）。通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类，由类标号属性确定。用于建立模型的元组集称为训练数据集，其中每个元组称为训练样本。由于给出了类标号属性，因此该步骤又称为有指导的学习。如果训练样本的类标号是未知的，则称为无指导的学习（聚类）。学习模型可用分类规则、决策树和数学公式的形式给出。第2步：使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。常用的分类规则挖掘方法分类规则挖掘有着广泛的应用前景。对于分类规则的挖掘通常有以下几种方法，不同的方法适用于不同特点的数据： 1．贝叶斯方法 2．决策树方法 3．人工神经网络方法 4．约略集方法 5．遗传算法分类方法的评估标准：准确率：模型正确预测新数据类标号的能力。速度：产生和使用模型花费的时间。健壮性：有噪声数据或空缺值数据时模型正确分类或预测的能力。伸缩性：对于给定的大量数据，有效地构造模型的能力。可解释性：学习模型提供的理解和观察的层次。影响一个分类器错误率的因素 (1) 训练集的记录数量。生成器要利用训练集进行学习，因而训练集越大，分类器也就越可靠。然而，训练集越大，生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。 (2) 属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合，使得生成器难度增大，需要的时间也更长。有时随机的关系会将生成器引入歧途，结果可能构造出不够准确的分类器（这在技术上被称为过分拟合）。因此，如果我们通过常识可以确认某个属性与目标无关，则将它从训练集中移走。 (3) 属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签（如试图根据某人眼睛的颜色来决定他的收入）。加入其他的属性（如职业、每周工作小时数和年龄），可以降低错误率。 (4) 待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布，那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器，那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途，因为数据属性值的分布可能是有很大差别的。评估方法有两种方法可以用于对分类器的错误率进行评估，它们都假定待预测记录和训练集取自同样的样本分布。 (1) 保留方法(Holdout)：记录集中的一部分（通常是2/3）作为训练集，保留剩余的部分用作测试集。生成器使用2/3 的数据来构造分类器，然后使用这个分类器来对测试集进行分类，得出的错误率就是评估错误率。虽然这种方法速度快，但由于仅使用2/3 的数据来构造分类器，因此它没有充分利用所有的数据来进行学习。如果使用所有的数据，那么可能构造出更精确的分类器。 (2) 交叉纠错方法(Cross validation)：数据集被分成k 个没有交叉数据的子集，所有子集的大小大致相同。生成器训练和测试共k 次；每一次，生成器使用去除一个子集的剩余数据作为训练集，然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次(t)，对于一个t 次k 分的交叉纠错法，k ＊t 个分类器被构造并被评估，这意味着交叉纠错法的时间是分类器构造时间的k ＊t 倍。增加重复的次数意味着运行时间的增长和错误率评估的改善。我们可以对k 的值进行调整，将它减少到3 或5，这样可以缩短运行时间。然而，减小训练集有可能使评估产生更大的偏差。通常Holdout 评估方法被用在最初试验性的场合，或者多于5000 条记录的数据集；交叉纠错法被用于建立最终的分类器，或者很小的数据集。二．贝叶斯分类贝叶斯分类方法是一种具有最小错误率的概率分类方法，可以用数学公式的精确方法表示出来，并且可以用很多种概率理论来解决。设（Ω,Θ,P）为概率空间，Ai∈Θ（i=1,2,…,n）为Ω的一个有穷剖分，且P(Ai)>0 (i=1,2,…,n)，则对任意B∈Θ且P(B)>0，有 P(Ai|B)= （i=1,2,…,n）上式称为贝叶斯公式。贝叶斯定理为我们提供了一个计算假设h的后验概率的方法 P(h|D)= 分类有规则分类和非规则分类，贝叶斯分类是非规则分类，它通过训练集训练而归纳出分类器，并利用分类器对没有分类的数据进行分类。贝叶斯分类的特点贝叶斯分类具有如下特点： (1) 贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类； (2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用，即并不是一个或几个属性决定分类，而是所有的属性都参与分类； (3) 贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。贝叶斯定理给出了最小化误差的最优解决方法，可用于分类和预测。理论上，它看起来很完美，但在实际中，它并不能直接利用，它需要知道证据的确切分布概率，而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。三．决策树分类决策树（Decision Tree）又称为判定树，是运用于分类的一种树结构。其中的每个内部结点（internal node）代表对某个属性的一次测试，每条边代表一个测试结果，叶结点（leaf）代表某个类（class）或者类的分布（class distribution），最上面的结点是根结点。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树，它的输入是一组带有类别标记的训练数据。二叉树的内部结点（非叶结点）一般表示为一个逻辑判断，如形式为(a = b)的逻辑判断，其中a 是属性，b是该属性的某个属性值；树的边是逻辑判断的分支结果。多叉树（ID3）的内部结点是属性，边是该属性的所有取值，有几个属性值，就有几条边。树的叶结点都是类别标记。使用决策树进行分类分为两步：第1步：利用训练集建立并精化一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。第2步：利用生成完毕的决策树对输入数据进行分类。对输入的记录，从根结点依次测试记录的属性值，直到到达某个叶结点，从而找到该记录所在的类。问题的关键是建立一棵决策树。这个过程通常分为两个阶段： (1) 建树（Tree Building）：决策树建树算法见下，可以看得出，这是一个递归的过程，最终将得到一棵树。 (2) 剪枝（Tree Pruning）：剪枝是目的是降低由于训练集存在噪声而产生的起伏。决策树方法的评价。优点与其他分类算法相比决策树有如下优点： (1) 速度快：计算量相对较小，且容易转化成分类规则。只要沿着树根向下一直走到叶，沿途的分裂条件就能够唯一确定一条分类的谓词。 (2) 准确性高：挖掘出的分类规则准确性高，便于理解，决策树可以清晰的显示哪些字段比较重要。缺点一般决策树的劣势： (1) 缺乏伸缩性：由于进行深度优先搜索，所以算法受内存大小限制，难于处理大训练集。一个例子：在Irvine机器学习知识库中，最大可以允许的数据集仅仅为700KB，2000条记录。而现代的数据仓库动辄存储几个G-Bytes的海量数据。用以前的方法是显然不行的。 (2) 为了处理大数据集或连续量的种种改进算法（离散化、取样）不仅增加了分类算法的额外开销，而且降低了分类的准确性，对连续性的字段比较难预测，当类别太多时，错误可能就会增加的比较快，对有时间顺序的数据，需要很多预处理的工作。但是，所用的基于分类挖掘的决策树算法没有考虑噪声问题，生成的决策树很完美，这只不过是理论上的，在实际应用过程中，大量的现实世界中的数据都不是以的意愿来定的，可能某些字段上缺值（missing values）；可能数据不准确含有噪声或者是错误的；可能是缺少必须的数据造成了数据的不完整。另外决策树技术本身也存在一些不足的地方，例如当类别很多的时候，它的错误就可能出现甚至很多。而且它对连续性的字段比较难作出准确的预测。而且一般算法在分类的时候，只是根据一个属性来分类的。在有噪声的情况下，完全拟合将导致过分拟合（overfitting），即对训练数据的完全拟合反而不具有很好的预测性能。剪枝是一种克服噪声的技术，同时它也能使树得到简化而变得更容易理解。另外，决策树技术也可能产

统计和可视化要想建立一个好的预言模型，你必须了解自己的数据。最基本的方法是计算各种统计变量（平均值、方差等）和察看数据的分布情况。你也可以用数据透视表察看多维数据。数据的种类可分为连续的，有一个用数字表示的值（比如销售量）或离散的，分成一个个的类别（如红、绿、蓝）。离散数据可以进一步分为可排序的，数据间可以比较大小（如，高、中、低）和标称的，不可排序（如邮政编码）。图形和可视化工具在数据准备阶段尤其重要，它能让你快速直观的分析数据，而不是给你枯燥乏味的文本和数字。它不仅让你看到整个森林，还允许你拉近每一棵树来察看细节。在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等，直接看数字则很难。可视化工具的问题是模型可能有很多维或变量，但是我们只能在2维的屏幕或纸上展示它。比如，我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。因此，可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。虽然目前有了一些这样的工具，但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。对于眼睛有色盲或空间感不强的人，在使用这些工具时可能会遇到困难。聚集（分群）聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显，而同一个群之间的数据尽量相似。与分类不同（见后面的预测型数据挖掘），在开始聚集之前你不知道要把数据分成几组，也不知道怎么分（依照哪几个变量）。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好，这时你需要删除或增加变量以影响分群的方式，经过几次反复之后才能最终得到一个理想的结果。神经元网络和K-均值是比较常用的聚集算法。不要把聚集与分类混淆起来。在分类之前，你已经知道要把数据分成哪几类，每个类的性质是什么，聚集则恰恰相反。关联分析关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。序列模式与此类似，他寻找的是事件之间时间上的相关性，如对股票涨跌的分析。关联规则可记为A==>B，A称为前提和左部（LHS），B称为后续或右部（RHS）。如关联规则“买锤子的人也会买钉子”，左部是“买锤子”，右部是“买钉子”。要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联（“锤子和钉子”）在数据库中出现的频率称为支持度。比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”，则此关联的支持度为15%。非常低的支持度（比如1百万个事务中只有一个）可能意味着此关联不是很重要，或出现了错误数据（如，“男性和怀孕”）。要找到有意义的规则，我们还要考察规则中项及其组合出现的相对频率。当已有A时，B发生的概率是多少？也即概率论中的条件概率。回到我们的例子，也就是问“当一个人已经买了锤子，那他有多大的可能也会买钉子？”这个条件概率在数据挖掘中也称为可信度，计算方法是求百分比：（A与B同时出现的频率）/（A出现的频率）。让我们用一个例子更详细的解释这些概念：总交易笔数（事务数）：1,000包含“锤子”：50包含“钉子”：80包含“钳子”：20包含“锤子”和“钉子”：15包含“钳子”和“钉子”：10包含“锤子”和“钳子”：10包含“锤子”、“钳子”和“钉子”：5 则可以计算出： “锤子和钉子”的支持度=15%（15/1,000）“锤子、钉子和钳子”的支持度=05%（5/1,000）“锤子==>钉子”的可信度=30%（15/50）“钉子==>锤子”的可信度=19%（15/80）“锤子和钉子==>钳子”的可信度=33%（5/15）“钳子==>锤子和钉子”的可信度=25%（5/20）

1、神经元网络办法

神经元网络由于本身优良的健壮性、自组织自适应性、并行计算、遍及贮存和高宽比容错机制等特色特别适合处理数据发掘的难题，因而近些年愈来愈遭受大家的关心。

2、遗传算法

遗传算法是一种依据微生物自然选择学说与基因遗传原理的恣意优化算法，是一种仿生技能全局性提升办法。遗传算法具有的暗含并行性、便于和其他实体模型交融等特性促使它在数据发掘中被多方面运用。

3、决策树算法办法

决策树算法是一种常见于预测模型的优化算法，它依据将很多数据信息有目地归类，从这当中寻找一些有使用价值的，潜在性的信息。它的要害优势是叙说简易，归类速度更快，十分适宜规模性的数据处理办法。

4、遮盖正例抵触典例办法

它是使用遮盖悉数正例、抵触悉数典例的观念来找寻规范。最先在正例结合中随意选择一个种子，到典例结合中逐一较为。与字段名赋值组成的选择子相溶则舍弃，反过来则保存。按此观念循环系统悉数正例种子，将获得正例的规范(选择子的合取式)。

5、数据剖析办法

在数据库查询字段名项中心存有二种相关：函数关系和相关剖析，对他们的剖析可选用应用统计学办法，即使用统计学原理对数据库查询中的信息展开剖析。可展开常见统计剖析、多元回归剖析、相关性剖析、差异剖析等。

6、含糊集办法

即使用含糊不清结合基础理论对具体难题展开含糊不清评定、含糊不清管理决策、含糊不清系统识别和含糊聚类剖析。系统软件的多元性越高，抽象性越强，一般含糊不清结合基础理论是用从属度来描绘含糊不清事情的亦此亦彼性的。

以上就是关于数据挖掘算法需要什么知识全部的内容，包括:数据挖掘算法需要什么知识、数据挖掘算法、如何系统地学习数据挖掘等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9709462.html

数据挖掘算法需要什么知识

发表评论

评论列表（0条）

数据挖掘算法 需要什么知识

发表评论

评论列表（0条）

数据挖掘算法需要什么知识