算法,可以说是很多技术的核心,而数据挖掘也是这样的。数据挖掘中有很多的算法,正是这些算法的存在,我们的数据挖掘才能够解决更多的问题。如果我们掌握了这些算法,我们就能够顺利地进行数据挖掘工作,在这篇文章我们就给大家简单介绍一下数据挖掘的经典算法,希望能够给大家带来帮助。
1KNN算法
KNN算法的全名称叫做k-nearest neighbor classification,也就是K最近邻,简称为KNN算法,这种分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似,即特征空间中最邻近的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法常用于数据挖掘中的分类,起到了至关重要的作用。
2Naive Bayes算法
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。这种算法在数据挖掘工作使用率还是挺高的,一名优秀的数据挖掘师一定懂得使用这一种算法。
3CART算法
CART, 也就是Classification and Regression Trees。就是我们常见的分类与回归树,在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。这两个思想也就决定了这种算法的地位。
在这篇文章中我们给大家介绍了关于KNN算法、Naive Bayes算法、CART算法的相关知识,其实这三种算法在数据挖掘中占据着很高的地位,所以说如果要从事数据挖掘行业一定不能忽略这些算法的学习。
数据挖掘(Data Mining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
原则上讲,数据挖掘可以应用于任何类型的信息存储库及瞬态数据(如数据流),如数据库、数据仓库、数据集市、事务数据库、空间数据库(如地图等)、工程设计数据(如建筑设计等)、多媒体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。也正因如此,数据挖掘存在以下特点:
(1)数据集大且不完整
数据挖掘所需要的数据集是很大的,只有数据集越大,得到的规律才能越贴近于正确的实际的规律,结果也才越准确。除此以外,数据往往都是不完整的。
(2)不准确性
数据挖掘存在不准确性,主要是由噪声数据造成的。比如在商业中用户可能会提供假数据;在工厂环境中,正常的数据往往会收到电磁或者是辐射干扰,而出现超出正常值的情况。这些不正常的绝对不可能出现的数据,就叫做噪声,它们会导致数据挖掘存在不准确性。
(3)模糊的和随机的
数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察,或者由于涉及到隐私信息无法获知到具体的一些内容,这个时候如果想要做相关的分析 *** 作,就只能在大体上做一些分析,无法精确进行判断。
而数据的随机性有两个解释,一个是获取的数据随机;我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习,那么一切的 *** 作都属于是灰箱 *** 作。
神经网络:
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。
1、矢量数据结构,包括:简单数据结构、拓扑数据结构、曲面数据结构。
栅格数据结构,包括:栅格矩阵结构、游程编码结构、四叉树数据结构、八叉树和十六叉树结构。
2、(1)空间聚类方法在高速公路病害密集区分析中的应用。
高速公路路面的病害总是在某些地段较为密集,在某些地段较为疏散.找出病害密集的区域,对于养护决策有着重要的意义.空间聚类可对空间物体的集群性进行分析,应用聚类分析,探寻高速公路的病害密集区,制定养护对策,节省人力、物力、财力。
(2)聚类分析法在城市经济空间分区中的应用
城市经济分区涉及多个要素,靠仅有的经验和专业知识做定性分类是远远不够的,往往带有主观性和随意性。为找出多个城市之间的比较优势和差距,为有关政策机构在制定政策时提供参考,针对城市综合竞争力的8大要素,采用Q型聚类分析法进行最优分割,按评价系数进行分类。1Q型聚类分析法聚类分析(Cluster Analysis)是研究“物以类聚”的一种方法,国内有人称它为群分析、点群分析、簇群分析等,其基本思想是从一批样本的多个观测指标中,找出度量样本之间或指标之间相似程度(亲疏关系)的统计量,构成一个对称的相似性矩阵,在此基础上进一步找寻各样本。
专业代码、名称及研究方向 计划招生人数 考 试 科 目 备 注
214测绘学院
(68778815) 85
070801固体地球物理学
01 地球重力场理论及应用
02 卫星重力及其应用
03 月球重力场的理论及应用
04 卫星重力学及应用
05 大地测量和地球重力场地球物理反演理论及应用
06 地球动力学数值模拟及应用
07 地壳运动与变形分析
08 地下工程地震预报
09 地震勘探
10 重力、地磁勘探技术及应用
11 电法勘探技术及应用
①101政治理论
②201英语或202俄语或212德语
③301数学一
④929重力学 复试采用笔试和口试相结合的方法进行,笔试的科目为:地球物理学原理
同等学力和跨学科加试科目:①地球概论②大学物理
081601大地测量学与测量工程
01 卫星导航定位技术及其应用
02 组合导航
03 基于位置服务
04 卫星定轨
05 现代测量数据处理理论与方法
06 现代大地测量基准建立与维持
07 物理大地测量学
08 深空大地测量学
09 海洋测绘
10 卫星重力测量理论及应用
11 地球物理大地测量
12 空间数据质量与挖掘
13 精密工程测量
14 变形监测分析
15 工业测量
16 移动测量与测量自动化
17 数近景摄影测量
18 地下工程测量
19 灾害监测评估与预警
20 工程测量专用仪器与软件
21 激光雷达数据处理及应用
22 新型遥感影像数据处理理论与方法
23 真三维景观影像建模
24 超分辨图像复原技术
25 数字摄影测量理论与方法
26 遥感信息处理与应用
27 图像测量
28 地理信息系统及应用
29 极地测绘
①101政治理论
②201英语或202俄语或212德语
③301数学一
④930大地测量学基础或931计算机基础 复试采用笔试和口试相结合的方法进行,笔试的科目为:测绘学概论
同等学力和跨学科加试科目:①测量学②GPS原理与应用
★081620 城市空间信息工程
01 城市地理空间框架与维持
02 数字城市理论与应用
03 城市公共安全应急管理
04 电子政务公共空间信息平台
05 城市不动产管理与评估
06 城市地下管网信息系统
07 城市虚拟现实技术与应用
08 城市空间信息智能服务
09 城市空间信息处理理论与应用 ①101政治理论
②201英语或202俄语或212德语
③301数学一
④932地理信息系统原理与应用 复试采用笔试和口试相结合的方法进行,笔试的科目为:GPS原理与应用或摄影测量与遥感
同等学力和跨学科加试科目:①数字测图原理与方法②数据库原理
214 测绘学院
初试科目考试内容及范围 :
1、《大地测量学基础》考试范围及内容
●
1) 大地测量学的大地测量学的发展简史及展望
2) 坐标系统与时间系统
3) 地球重力场及地球形状的基本理论
4) 地球椭球及其数学投影变换的基本理论
5) 大地测量基本技术与方法
●
1) 了解大地测量学的基本概念、发展简史及未来展望,熟习经典大地测量与现代大地测量的区别,掌握大地测量学的定义和内容。
2) 了解行星运动的三大规律,掌握岁差、章动、极移;恒星时、世界时、历书时、力学时、原子时、协调世界时的概念,以及它们之间的相互关系。
3) 了解坐标系统的基本概念,参心坐标系的建立方法,一点定位和多点定位的基本原理;了解北京54坐标系、80坐标系、新北京54坐标系的主要特点及其相互联系与区别;了解地心坐标系的建立方法,掌握国际地球参考系统(ITRS)与国际地球参考框架(ITRF)的概念;熟练掌握几种坐标系统的定义以及其相互换算关系;
4) 掌握地球重力位、地球重力、正常重力位、正常重力的概念及正常椭球、水准椭球、总地球椭球、参考椭球的概念;
5) 掌握正高系统、正常高系统、力高高程系统的概念;熟练掌握国家高程基准;
6) 掌握垂线偏差和大地水准面差距的定义与测定方法以及确定地球形状的基本方法。
7) 熟练掌握地球椭球的基本元素及其相互关系;熟练掌握椭球面上几种常用坐标系及其相互关系;熟练掌握空间大地坐标系与空间直角坐标系之间相互转换的计算;
8) 熟练掌握椭球面上的几种曲率半径(子午线、卯酉线、任意法截线、平均曲率半径)的计算;熟练掌握椭球面上子午线弧长计算公式与子午线弧长求大地纬度的计算方法;了解椭球面梯形图幅面积的计算;
9) 熟练掌握大地线的定义,相对法截线的概念;熟练掌握大地线微分方程和克莱劳方程;
10) 熟练掌握大地主题正反算的定义;
11) 了解地图数学投影的基本概念;掌握地图数学投影的分类;熟练掌握高斯平面直角坐标系的定义与建立方法;掌握平面子午线角、方向改化、距离改化的定义及其计算;熟练掌握高斯投影的邻带换算方法;掌握横轴墨卡托(UTM)投影与兰勃特投影基本概念。
12) 了解国家大地控制网建立的基本原理及其方法,掌握现代大地测量技术(GPS、VLBI、INS、SLR)的概念;了解现代测量技术建立国家大地测量控制网的概况;
13) 掌握大地控制网与优化设计概念与方法,可靠性的概念,优化设计的分类;
14) 熟练掌握测角的主要误差来源,精密测角方法(方向观测法)及其限差要求;了解归心改正;
15) 熟练掌握测距的基本原理,距离改正方法,测距的主要误差来源以及测距精度的评定方法;
16) 熟练掌握精密水准测量误差来源;
17) 理解与掌握大地测量数据处理的理论与方法;
2、《计算机基础》考试范围及内容
1 数据结构绪论:数据结构的相关概念、算法及算法分析。
2 线性表:线性表及其逻辑结构、线性表的顺序存储结构、线性表的链式存储结构、线性表的应用。
3 栈:栈的定义、栈的顺序存储结构及其基本运算实现、栈的链式存储结构及其基本运算的实现、栈的应用。
4 队列:队列的定义、队列的顺序存储结构及其基本运算实现、队列的链式存储结构及其基本运算的实现、队列的应用。
5 串:串的基本概念、串的顺序和链式存储结构。
6 数组和稀疏矩阵:数组的基本概念、数组的存储结构、特殊矩阵的压缩存储;稀疏矩阵的三元组表示。
7 递归:递归的概念、递归算法的设计。
8 树和二叉树:树的基本概念、二叉树概念和性质、二叉树存储结构、二叉树的基本运算及其实现、二叉树的遍历、二叉树的构造和哈夫曼树。
9 图:图的基本概念、图的存储结构、图的遍历、生成树和最小生成树、最短路径和拓扑排序。
10 查找:查找的基本概念、线性表的查找、树表的查找、哈希表查找。
11 内排序:排序的基本概念、插入排序、交换排序、选择排序、归并排序、基数排序、各种内排序方法的比较和选择。
3、《重力学》考试范围及内容
《地球重力学》是地球物理专业的基础课程;其主要任务是研究地球形状、外部重力场、地球内部构造、板块运动及变形的科学;要求学生掌握地球重力场的基本概念、重力测量的原理与方法,重力数据的预处理方法和分析方法;重力正反演与地球内部物质构造的研究方法;大地水准的理论与确定方法。
4、《地理信息系统原理及应用》考试范围及内容
考试目的
地理信息系统是一门处理、分析和表达空间信息并具有多学科交叉特征的新兴学科,是许多相关学科专业的基础课程,也是空间信息科学的重要研究方向。本大纲适用于测绘学院城市空间信息工程方向硕士生入学考试,要求考生对地理信息系统基本概念有较深入的理解,能够系统地掌握空间数据处理、空间数据模型、空间信息分析的基本理论与方法,理解地理信息系统的主要工程化技术,并具有综合地理信息系统分析问题和解决问题的能力。
考试内容
1地理信息系统概论
(1)基本概念:信息、数据、地理数据、地理信息、信息系统、地理信息系统与其它信息系统间的关系
(2)地理信息系统及其类型:地理信息系统,地理信息系统类型,地理信息系统的构成
(3)地理信息系统的主要功能及发展趋势
2地理信息系统中的数据和数据模型
(1)数据涵义和数据类型:数据涵义,数据类型,空间数据的表示方法
(2)数据的测量尺度:命名量,次序量,间隔量,比率量
(3)地理信息系统的数据质量:基本概念,误差分析,质量控制
(4)空间数据的元数据:元数据概念、类型、应用,元数据的获取、管理,元数据的存储和功能实现
(5)空间参照系:坐标系统、地图投影
(6)空间数据模型:空间数据模型的类型、要素模型、场模型、网络模型、时空模型、三维模型
(7)空间关系:拓朴关系、度量关系、方向关系
3空间数据获取
(1)地图数字化:地图数字化、扫描矢量化算法、矢量和栅格数据压缩方法
(2)空间数据录入后的处理:坐标变换、拓朴关系自动生成算法
4空间数据管理
(1)空间数据库的基本概念:空间数据库,数据与文件组织,GIS的内部数据结构
(2)栅格数据结构及其编码:栅格数据结构,决定栅格单元代码的方法,编码方法
(3)矢量数据结构及其编码:矢量数据结构,编码方法
(4)矢栅结构的比较及转换算法
(5)空间索引机制与空间信息查询:索引概念,索引类型,空间信息查询
5空间查询与空间分析
(1)空间查询与量算:空间查询类型、空间量算类型
(2)空间变换与再分类
(3)典型空间分析:缓冲区分析、叠加分析、网络分析
(4)空间插值
(5)空间统计分析方法
(6)数字地形模型与地形分析:数字地形模型DTM、数字高程模型DEM、DEM的主要表示方法、DEM之间的相互转换、DEM的建立方法、DEM的分析应用
6空间数据表现与地图制图
(1)专题信息表现:地图符号、专题信息、专题地图的分类和内容,专题图的表现形式
(2)专题地图设计
(3)地理信息的可视化:基本概念,地学可视化的类型,虚拟地理环境
7地理信息系统的相关知识
(1)空间建模的基本概念:空间分析过程及模型、空间决策支持模型、专家系统、数据仓库与空间数据挖掘
(2)3S集成:遥感,全球定位系统,遥感与GIS的集成,全球定位系统与GIS的集成,3S集成
(3)网络GIS的基本概念
(4)GIS开发的基本方法:常用开发方法、一般开发过程
以上就是关于三种经典的数据挖掘算法全部的内容,包括:三种经典的数据挖掘算法、什么叫数据挖掘、神经网络、GIS空间数据类型有哪些等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)