数据挖掘的国内外研究现状

数据挖掘的国内外研究现状,第1张

摘要:随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。

关键词:数据挖掘;知识;分析;市场营销;金融投资

随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。由此,数据挖掘技术应运而生。下面,本文对数据技术及其应用作一简单介绍。

一、数据挖掘定义

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为:按企业制定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

二、数据挖掘技术

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,代写论文其中数据仓库技术的发展与数据挖掘有着密切的关系。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中,因为数据仓库会对数据进行清理,并会解决数据的不一致问题,这会给数据挖掘带来很多好处。此外数据挖掘还利用了人工智能(AI)和统计分析的进步所带来的好处,这两门学科都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘所发现的知识的不同,其所利用的技术也有所不同。

1.广义知识。指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向屙性的归约等。数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。而面向属性的归约是以类SQL语言来表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。

2.关联知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规

则发现方法是Apriori算法和FP—Growth算法。关联规则的发现可分为两步:第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。

3.分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类方法有决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K—Means划分等。其中最为典型的分类方法是决策树。它是从实例集中构造决策树,是一种有指导的学习方法。

该方法先根据训练子集形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练子集中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的屙性,该分枝对应该屙性的某一可能值。

4.预测型知识。它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年BoX和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。

5.偏差型知识。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。

三、数据挖掘流程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,代写毕业论文并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如下:

过程中各步骤的大体内容如下:

1.确定业务对象,清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构不可预测,但要探索的问题应该是有预见的,为了数据挖掘而挖掘则带有盲目性,是不会成功的。

2.数据准备。(1)数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(2)数据预处理。研究数据的质量,进行数据的集成、变换、归约、压缩等.为进一步的分析作准备,并确定将要进行的挖掘 *** 作的类型。(3)数据转换。将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成功的关键。

3.数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。

4.结果分析。解释并评估结果。其使用的分析方法一般应视挖掘 *** 作而定,通常会用到可视化技术。

5.知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。

四、数据挖掘的应用

数据挖掘技术从一开始就是面向应用的。目前在很多领域,数据挖掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。

1.市场营销。由于管理信息系统和P0S系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场营销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。数据挖掘在营销业上的应用可分为两类:数据库营销(database markerting)和货篮分析(basket analysis)。数据库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客,以便向它们推销产品。通过对已有的顾客数据的辱淅,可以将用户分为不同级别,级别越高,其购买的可能性就越大。货篮分析

是分析市场销售数据以识别顾客的购买行为模式,例如:如果A商品被选购,那么B商品被购买的可能性为95%,从而帮助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也更有目的性。这方面的系统有:Opportunity Ex-plorer,它可用于超市商品销售异常情况的因果分析等,另外IBM公司也开发了识别顾客购买行为模式的一些工具(IntdligentMiner和QUEST中的一部分)。

2.金融投资。典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。代写硕士论文由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Selector和LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。

3.欺诈甄别。银行或商业上经常发生诈骗行为,如恶性透支等,这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,这样当某项业务符合这些特征时,可以向决策人员提出警告。

这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司开发的xyk欺诈估测系统,它已被相当数量的零售银行用于探测可疑的xyk交易;FAIS则是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程的研究、web信息检索等。

结束语

随着数据库、人工智能、数理统计及计算机软硬件技术的发展,数据挖掘技术必能在更多的领域内取得更广泛的应用。

参考文献:

[1]闫建红《数据库系统概论》的教学改革与探索[J].山西广播电视大学学报,2006,(15):16—17.

启动\关闭Oracle数据库的多种方法

启动和关闭oracle有很多种方法。

这里只给出3种方法:

l Sql*plus

l OEM控制台

l Windows 控制台

1.以sql*plus为例:

a.准备

首先我们用sql*plus来连接到Oracle

Sqlplus /nolog 是以不连接数据库的方式启动sql*plus

Connect /as sysdba 是以DBA身份连接到oracle

b.启动

启动还是比较简单的

Startup就OK了。

不过oracle启动模式有3种:

l Startup nomount (nomount模式)启动实例不加载数据库。

l Startup mount (mount模式)启动实例加载数据库但不打开数据库

l Startup (open 模式)启动实例加载并打开数据库,就是我们上面所用的命令

Nomount模式中oracle仅为实例创建各种内存结构和服务进程,不会打开任何数据库文件,所以说:

1) 创建新数据库

2) 重建控制文件

这2种 *** 作都必须在这个模式下进行。

Mount模式中oracle只装载数据库但不打开数据库,所以说:

1) 重命名数据文件

2) 添加、删除和重命名重做日子文件

3) 执行数据库完全恢复 *** 作

4) 改变数据库的归档模式

这4种 *** 作都必须在这个模式下进行

Open模式(就是我们上面的startup不带任何参数的)呵呵就不多说了,正常启动。

当然这3种模式之间可以转换:

Alter database mount(nomount模式)—〉alter database open(mount 模式)—〉(open模式)

当然还有其它一些情况,在我们open模式下可以将数据库设置为非受限状态和受限状态

在受限状态下,只有DBA才能访问数据库,所以说:

1) 执行数据导入导出

2) 使用sql*loader提取外部数据

3) 需要暂时拒绝普通用户访问数据库

4) 进行数据库移植或者升级 *** 作

这4种 *** 作都必须在这个状态下进行

在打开数据库时使用startup restrict命令即进入受限状态。

使用alter system disable restricted session命令即可以将受限状态改变为非受限状态。

使用alter system enable restricted session命令可以将非受限状态变为受限状态

使用alter database open read only可以使数据库进入只读状态。

使用alter database open read write 可以使数据库进入读写状态。

当然在某些情况下可能是用上述各种启动方式都无法成功启动数据库,这个时候就要使用startup force命令来强行启动数据库。当然谁都不想碰到这种情况:)

c.关闭数据库

1)正常关闭 shutdown

2) 立即关闭 shutdown immediate

3) 关闭事务 shutdown transactional

4) 强行关闭 shutdown abort,当然谁都不想碰到这种情况。

2.OEM为例

Oracle Enterprise Management(OEM),这个名字有时候会让人误解呵呵。所有的数据库都差不多,都有个 Enterprise Management,就连Mysql这样的小型数据库都有,当然每个数据库的Enterprise Management功能都有一些差异,当然差别不是很大。Enterprise Management的目的就是让我们能够快速、方便、傻瓜化的去管理数据库,想想假如我每天都去用DOS界面去 *** 作P-SQL,T-SQL……郁闷不?当然我写起来也比较的方面,ctrl C,ctrl V就OK了

跟第一小节讲的Sqlplus /nolog ,Connect /as sysdba 这2个命令差不多的 *** 作如图:

按照上面的一步步 *** 作就能够连接到数据库。

下面是如何启动和关闭数据库:

点击我们前几章创建的ORADB01这个数据库树中的配置选项,这个里面的:

1)已启动 对应 Nomount模式

2)已转载 对应 mount模式

3)打开 对应 open模式

当你点击应有按钮之后就会进入如下对话框

1)正常 对应 正常关闭 shutdown

2) 立即 对应 立即关闭 shutdown immediate

3) 事务处理 对应 关闭事务 shutdown transactional

4) 中止 对应 强行关闭 shutdown abort

确定之后出现如下对话框

限制对数据库访问 对应 alter system disable restricted session

alter system enable restricted session

只读模式 对应 alter database open read only

alter database open read write

简单吧,sql*plus的一大堆命令到OEM中变成了几个按钮罢了。

3.windows控制台

这个熟悉吧:

oracle ************Agent 用于OEM管理结构

oracle************HTTPSERVER oracle Web服务器

oracle ************ManagementServer 用于OEM管理结构

oracle ************ TNSListener oracle网络结构的服务器端进程

oracle ************OEMREP 资料档案库文件

oracle ************ORADB001 用户创建的数据库

server 2008硬盘安装要纯净的环境。1.格式化C:分区

将C:分区下的所有要保存的文件转移到其它分区。

下载安装Windows PE,重启电脑,进入PE环境,在PE环境下格式化C:分区(从硬盘正常进入系统是无法格式化C:盘的)。

将下载的iso文件用WINRAR或7ZIP解压缩到一个文件夹(不能在欲安装2008的分区),在此以解压缩到E:\win2k8文件夹为例。

2.拷贝启动文件

将E:\win2k8文件夹中的boot文件夹和bootmgr复制到C:根目录下。

在C:根目录下新建sources文件夹,将E:\win2k8\sources\boot.wim复制到里面。

这一步仅当安装64位版2008时适用。下载这个bootsect.exe文件(32位的启动菜单),复制到C:\boot文件夹中,以替换原有的64位bootsect。

开始菜单》运行》输入“cmd”》确定,执行以下命令

c:\boot\bootsect.exe /nt60 c:

等安装界面出现后,依次点击Next》Repair your computer(修复)》Next》Command Prompt(命令提示符),执行格式化命令format c:/fs ntfs /q (注:可能会提示输入C盘卷标,并询问是否格式化,请输入Y以确认格式化 *** 作)

当提示格式化成功后,执行命令E:\win2k8\sources\setup.exe

3.继续正常安装

取消复选框Auto…》Next》No》选择要安装的版本》选中复选框I have…》Next》选中复选框I accept…》Next》Custom(Advanced)》选择安装分区(通常是第一个)》Next》等待吧…

默认帐户是Administrator,第一次登入必须设置密码,2008默认对密码有强度要求,不可以是简单的密码,请至少包含小写字母、大写字母、数字。

在Server Manager 窗口中选中 Do not show me this console at logon ,以在登入时不自动显示此窗口,以后在开始菜单中可以打开此窗口。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10076302.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存