关于什么是数据挖掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法:
“简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘:概念与技术》(J Han and M Kamber)
“数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》(David Hand, et al)
“运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。”——《数据挖掘--概念、模型、方法和算法》(Mehmed Kantardzic)
“数据挖掘,简单地说,就是从一个数据库中自动地发现相关模式。”——《构建面向CRM的数据挖掘应用》(Alex Berson, et al)
“数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘:机遇与挑战》(John Wang)
而作为数据挖掘领域的华人第一人,韩家炜教授在《数据挖掘:概念与技术》的教学幻灯片中,给出一个更清晰的定义:“数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。”
这里我们可以看到数据挖掘具有以下几个特点:
基于大量数据:并非说小数据量上就不可以进行挖掘,实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。
非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。
隐含性:数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。
新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。
价值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的是在一些数据挖掘项目中,或者因为缺乏明确的业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器。
“数据挖掘”这个术语是在什么时候被大家普遍接受的,已经难以考证,大约在上世纪90年代开始兴起。其中还有一段趣话。在科研界,最初一直沿用“数据库中的知识发现”(即KDD,Knowledge Discovery in Database)。在第一届KDD国际会议中,委员会曾经展开讨论,是继续沿用KDD,还是改名为Data Mining(数据挖掘)?最后大家决定投票表决,采纳票数多的一方的选择。投票结果颇有戏剧性,一共14名委员,其中7位投票赞成KDD,另7位赞成Data Mining。最后一位元老提出“数据挖掘这个术语过于含糊,做科研应该要有知识”,于是在科研界便继续沿用KDD这个术语。而在商用领域,因为“数据库中的知识发现”显得过于冗长,就普遍采用了更加通俗简单的术语——“数据挖掘”。
严格地说,数据挖掘并不是一个全新的领域,它颇有点“新瓶装旧酒”的意味。组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。数据挖掘纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术,机器学习中的决策树、神经网络等技术,数据库中的关联分析、序列分析等技术。
随着大数据发展越来越好,数据挖掘成为了未来发展的一大趋势。数据挖掘主要是使用未来趋势和行为作出前摄的、基础知识的决策。下面北京电脑培训为大家介绍数据挖掘具备的功能。
一、自动预测趋势和行为
数据挖掘在大型数据库中自动查询预测信息,在很早之前,大量的手工分析问题都可以快速和直接的从数据本身得到结论。
二、关联分析
数据关联是数据中能够发现的一种重要知识。如果在两个和多个变值之间存在一定的规律,这就是所谓的相关性。关联可以分为简单相关、时间相关和因果相关。其中北京IT培训发现关联分析的目的主要是找出数据库中隐藏的网络。数据库中关联的数据有时是未知的、有时是已知的、有时是不确定的,所以关联分析生成的规则才具有可信度。
三、聚类
数据库中的记录能够分为一系类有意义的子集,即聚类。聚类能够提高人们对客观现实的理解,是概念记述和偏差分析的前提。北京IT培训发现聚类主要包括传统的模式识别方法和数学分类法。
四、概念描述
概念描述是对目标类别的内容的描述,以及此类目的相关特征的摘要。概念描述分为特征性描述和区别性描述,描述了不同物体之间的差异。北京电脑培训认为制定一类特征说明只会影响所有物体的共同要素。进行区别描述的方法还是很多种,如决策树方法、遗传学方法等。
数据仓库
,英文名称为
Data
Warehouse
,可简写为
DW
。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据挖掘
(
Data
Mining
),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为
数据库中知识发现
(
Knowledge
Discovery
in
Database,
KDD
),
也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤
数据挖掘(Data Mining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
通常我们把信息转化为价值,要经历信息、数据、知识、价值四个层面,数据挖掘就是中间的重要环节,是从数据中发现知识的过程。
随着GIS技术在各个行业的应用以及数据挖掘 空间数据采集技术 数据库技术的迅速发展 对从空间数据库发现隐含知识的需求日益增长 从而出现了用于在空间数据库中进行知识发现的技术——空间数据挖掘(Spatial Data Mining 本文简称为SDM) 空间数据挖掘是从空间数据库中提取隐含的 用户感兴趣的空间和非空间模式和普遍特征的过程
本文分析了空间数据库知识发现面临的困难 研究了扩展传统数据挖掘方法如分类 关联规则 聚类等到空间数据库的方法 并对空间数据库系统实现技术及空间数据挖掘系统开发模式等进行了比较分析
空间数据库知识发现面临的困难
从空间数据库发现知识的传统途径是通过专家系统 数据挖掘 空间分析等技术来实现的 但是在空间数据库隐含知识的发现方面 只单独依某一种技术 往往存在着这样或那样的缺陷 对于专家系统来讲 专家系统不具备自动学习的能力 GIS中的专家系统也达不到真正的智能系统的要求 仅能利用已有的知识进行推导 对于数据挖掘来讲 空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法 对于空间分析来讲 虽然空间分析中常用的统计方法可以很好地处理数字型数据 但是它存在的问题很多 如统计方法通常假设空间分布的数据间是统计上独立的 而现实中空间对象间一般是相互关联的;其次 统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外 统计方法对大规模数据库的计算代价非常高 所以在处理海量数据方面能力较低
从上面的分析可以看出 由于空间数据具有诸多特点 因此在空间数据库进行知识发现 需要克服使用单一技术的缺陷 即需要融合多种不同技术 所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题
空间数据挖掘是多学科和多种技术交综合的新领域 它综合了机器学习 空间数据库系统 专家系统 可移动计算 统计 遥感 基于知识的系统 可视化等领域的有关技术
空间数据挖掘利用空间数据结构 空间推理 计算几何学等技术 把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法 与传统空间分析方法相比 它在实现效率 与数据库系统的结合 与用户的交互 发现新类型的知识等方面的能力大大增强 空间数据挖掘能与GIS的结合 使GIS系统具有自动学习的功能 能自动获取知识 从而成为真正的智能空间信息系统
扩展传统数据挖掘方法到空间数据库
空间数据挖掘技术按功能划分可分为三类 描述 解释 预测 描述性的模型将空间现象的分布特征化 如空间聚类 解释性的模型用于处理空间关系 如处理一个空间对象和影响其空间分布的因素之间的关系 预测型的模型用来根据给定的一些属性预测某些属性 预测型的模型包括分类 回归等 以下介绍将几个典型的数据挖掘技术聚类 分类 关联规则扩展到空间数据库的方法
聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组 而空间数据聚类是按照某种距离度量准则 在某个大型 多维数据集中标识出聚类或稠密分布的区域 从而发现数据集的整个空间分布模式 经典统计学中的聚类分析方法对海量数据效率很低 而数据挖掘中的聚类方法可以大大提高聚类效率 文献[ ]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND 可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类 SD算法首先用CLARANS算法进行空间聚类 然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之 文献[ ]中提出一种将传统分类算法ID 决策树算法扩展到空间数据库的方法 该算法给出了计算邻近对象非空间属性的聚合值的方法 并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低 Koperski等[ ]将大型事务数据库的关联规则概念扩展到空间数据库 用以找出空间对象的关联规则 此方法采用一种逐渐求精的方法计算空间谓词 首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算 然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量
空间数据库实现技术
空间数据挖掘系统中 空间数据库负责空间数据和属性数据的管理 它的实现效率对整个挖掘系统有着举足轻重的影响 所以下面详细介绍空间数据库的实现技术
根据空间数据库中空间数据和属性数据的管理方式 空间数据库有两种实现模式 集成模式和混合模式 后者将非空间数据存储在关系数据库中 将空间数据存放在文件系统中 这种采用混合模式的空间数据库中 空间数据无法获得数据库系统的有效管理 并且空间数据采用各个厂商定义的专用格式 通用性差 而集成模式是将空间数据和属性数据全部存储在数据库中 因此现在的GIS软件都在朝集成结构的空间数据库方向发展 下面对集成结构的空间数据库技术中的两个主流技术基于空间数据引擎技术的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较分析
空间数据引擎是一种处于应用程序和数据库管理系统之间的中间件技术 使用不同GIS厂商的客户可以通过空间数据引擎将自身的数据交给大型关系型DBMS统一管理;同样 客户也可以通过空间数据引擎从关系型DBMS中获取其他类型GIS的数据 并转化成客户可使用的方式 它们大多是在Oracle i Spatial(较成熟的空间数据库版本 于 年 月推出)推出之前由GIS软件开发商提供的将空间数据存入通用数据库的解决方案 且该方案价格昂贵
Oracle Spatial提供一个在数据库管理系统中管理空间数据的完全开放体系结构 Oracle Spatial提供的功能与数据库服务器完全集成 用户通过SQL定义并 *** 作空间数据 且保留了Oracle的一些特性 如灵活的n 层体系结构 对象定义 健壮的数据管理机制 Java存储过程 它们确保了数据的完整性 可恢复能力和安全性 而这些特性在混合模式结构中几乎不可能获得 在Oracle Spatial中 用户可将空间数据当作数据库的特征使用 可支持空间数据库的复制 分布式空间数据库以及高速的批量装载 而空间中间件则不能 除了允许使用所有数据库特性以外 Spatial Cart ridge还提供用户使用行列来快速访问数据 使用简单的SQL语句 应用者就能直接选取多个记录 Spatial Cart ridge数据模型也给数据库管理员提供了极大的灵活性 DBA可使用常见的管理和调整数据库的技术
空间数据挖掘系统的开发
通用SDM系统
在空间数据挖掘系统的开发方面 国际上最著名的有代表性的通用SDM系统有 GeoMiner Descartes和ArcView GIS的S PLUS接口 GeoMiner是加拿大Simon Fraser大学开发的著名的数据挖掘软件DBMiner的空间数据挖掘的扩展模块 空间数据挖掘原型系统GeoMiner包含有三大模块 空间数据立方体构建模块 空间联机分析处理(OLAP)模块和空间数据采掘模块 能够进行交互式地采掘并显示采掘结果 空间数据采掘模块能采掘 种类型的规则 特征规则 判别规则和关联规则 GeoMiner采用SAND体系结构 采用的空间数据采掘语言是GMQL 其空间数据库服务器包括MapInfo ESRI/OracleSDE Informix Illustra以及其它空间数据库引擎
Descartes可支持可视化的分析空间数据 它与开发此软件的公司所开发的数据挖掘工具Kepler结合使用 Kepler完成数据挖掘任务且拥有自己的表现数据挖掘结果的非图形界面 Kepler和Descarte动态链接 把传统DM与自动作图可视化和图形表现 *** 作结合起来 实现C 决策树算法 聚类 关联规则的挖掘
ArcView GIS的S PLUS接口是著名的ESRI公司开发的 它提供工具分析空间数据中指定类
除了以上空间数据挖掘系统外 还有GwiM等系统
从以上SDM系统可以看出 它们的共同优点是把传统DM与地图可视化结合起来 提供聚类 分类等多种挖掘模式 但它们在空间数据的 *** 作上实现方式不尽相同 Descartes是专门的空间数据可视化工具 它只有与DM工具Kepler结合在一起 才能完成SDM任务 而GeoMiner是在MapInfo平台上二次开发而成 系统庞大 造成较大的资源浪费 S PLUS的局限在于 它采用一种解释性语言(Script) 其功能的实现比用C和C++直接实现要慢得多 所以只适合于非常小的数据库应用 基于现存空间数据挖掘系统的结构所存在的缺陷 我们提出空间数据挖掘系统一种新的实现方案
lishixinzhi/Article/program/SQL/201311/16146
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘对象
根据信息存储格式,北大青鸟昌平计算机学院认为用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
数据挖掘流程
定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
数据准备:数据准备包括:选择数据_在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理_进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
数据挖掘分类
直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。
间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。
数据挖掘的方法
神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。
遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
以上就是关于什么是数据挖掘数据挖掘怎么做啊全部的内容,包括:什么是数据挖掘数据挖掘怎么做啊、数据挖掘具备哪些功能、什么是数据仓库和数据挖掘等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)