急求数据库与数据挖掘的关系文字。_sql

　数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。

并非所有的信息发现任务都被视为数据挖掘。例如，使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的Web页面，则是信息检索（information retrieval）领域的任务。虽然这些任务是重要的，可能涉及使用复杂的算法和数据结构，但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息。尽管如此，数据挖掘技术也已用来增强信息检索系统的能力。

　数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。

寿险行业数据挖掘应用分析

寿险是保险行业的一个重要分支，具有巨大的市场发展空间，因此，随着寿险市场的开放、外资公司的介入，竞争逐步升级，群雄逐鹿已成定局。如何保持自身的核心竞争力，使自己始终立于不败之地，是每个企业必须面对的问题。信息技术的应用无疑是提高企业竞争力的有效手段之一。寿险信息系统经过了多年的发展，已逐步成熟完善，并积累了相当数量的数据资源，为数据挖掘提供了坚实的基础，而通过数据挖掘发现知识，并用于科学决策越来越普遍受到寿险公司的重视。

数据挖掘

数据挖掘（Data Mining，DM）是指从大量不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念（Concepts）、规则(Rules)、模式(Patterns)等形式。

目前业内已有很多成熟的数据挖掘方法论，为实际应用提供了理想的指导模型。CRISP-DM（Cross-Industry Standard Process for Data Mining）就是公认的、较有影响的方法论之一。CRISP-DM强调，DM不单是数据的组织或者呈现，也不仅是数据分析和统计建模，而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。CRISP-DM将整个挖掘过程分为以下六个阶段：商业理解（Business Understanding），数据理解(Data Understanding)，数据准备(Data Preparation)，建模(Modeling)，评估(Evaluation)和发布(Deployment)。

商业理解就是对企业运作、业务流程和行业背景的了解；数据理解是对现有企业应用系统的了解；数据准备就是从企业大量数据中取出一个与要探索问题相关的样板数据子集。建模是根据对业务问题的理解，在数据准备的基础上，选择一种更为实用的挖掘模型，形成挖掘的结论。评估就是在实际中检验挖掘的结论，如果达到了预期的效果，就可将结论发布。在实际项目中，CRISP-DM模型中的数据理解、数据准备、建模、评估并不是单向运作的，而是一个多次反复、多次调整、不断修订完善的过程。

行业数据挖掘

经过多年的系统运营，寿险公司已积累了相当可观的保单信息、客户信息、交易信息、财务信息等，也出现了超大规模的数据库系统。同时，数据集中为原有业务水平的提升以及新业务的拓展提供了条件，也为数据挖掘提供了丰厚的土壤。

根据CRISP-DM模型，数据挖掘首先应该做的是对业务的理解、寻找数据挖掘的目标和问题。这些问题包括：代理人的甄选、欺诈识别以及市场细分等，其中市场细分对企业制定经营战略具有极高的指导意义，它是关系到企业能否生存与发展、企业市场营销战略制定与实现的首要问题。

针对寿险经营的特点，我们可以从不同的角度对客户群体进行分类归纳，从而形成各种客户分布统计，作为管理人员决策的依据。从寿险产品入手，分析客户对不同险种的偏好程度，指导代理人进行重点推广，是比较容易实现的挖掘思路。由于国内经济发展状况不同，各省差异较大，因此必须限定在一个经济水平相当的区域进行分析数据的采样。同时，市场波动也是必须要考虑的问题，一个模型从建立到废弃有一个生命周期，周期根据模型的适应性和命中率确定，因此模型需要不断修订。

挖掘系统架构

挖掘系统包括规则生成子系统和应用评估子系统两个部分。

规则生成子系统主要完成根据数据仓库提供的保单历史数据，统计并产生相关规律，并输出相关结果。具体包括数据抽取转换、挖掘数据库建立、建模（其中包括了参数设置）、模型评估、结果发布。发布的对象是高层决策者，同时将模型提交给应用评估子系统.根据效果每月动态生成新的模型。

应用评估子系统可以理解为生产系统中的挖掘代理程序，根据生成子系统产生的规则按照一定的策略对保单数据进行非类预测。通过系统的任务计划对生产数据产生评估指标。具体包括核心业务系统数据自动转入数据平台、规则实时评估、评估结果动态显示、实际效果评估。规则评估子系统根据规则进行检测。经过一段时间的检测，可利用规则生成子系统重新学习，获得新的规则，不断地更新规则库，直到规则库稳定。

目前比较常用的分析指标有: 险种、交费年期、被保人职业、被保人年收入、被保人年龄段、被保人性别、被保人婚姻状况等。

实践中，可结合实际数据状况，对各要素进行适当的取舍，并做不同程度的概括，以形成较为满意的判定树，产生可解释的结论成果。

浅谈数据挖掘与数据仓库

1数据挖掘

1.1数据挖掘与传统数据分析的区别

数据挖掘与传统的数据分析，如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。

1.2数据挖掘的应用价值

（1）分类：首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。（2）估计：与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类是确定数目的，估计是不确定的。（3）聚类：是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统，对用户wap上网的行为进行聚类分析，通过客户分群，进行精确营销。（4）关联规则和序列模式的发现：关联是某种事物发生时其他事物会发生的这样一种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。与关联不同，序列是一种纵向的联系。例如：今天银行调整利率，明天股市的变化。（5）预测：通过分类或估值得出模型，该模型用于对未知变量的预言。（6）偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。除此之外，在客户分析，运筹和企业资源的优化，异常检测，企业分析模型的管理的方面都有广泛使用价值。

2数据仓库

2.1数据仓库的特征

（1）面向主题（Subject Oriented）的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析，而不是组织机构的日常 *** 作和事务处理。（2）集成（Integrated）的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。（3）时变（Time Variant）的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。（4）非易失（Nonvolatile）的数据集合。数据仓库的数据主要供企业决策分析之用，所涉及的数据 *** 作主要是数据查询，修改和删除 *** 作很少，通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种 *** 作：初始化载入和数据访问，因此其数据相对稳定，极少或根本不更新。[page]2.2数据仓库的类型

数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围，一般可将数据仓库分为下列3种类型：企业数据仓库（EDW）、 *** 作型数据库（ODS）和数据集市（Data Marts）。①企业数据仓库为通用数据仓库，它既含有大量详细的数据，也含有大量累赘的或聚集的数据，这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。② *** 作型数据库既可以被用来针对工作数据做决策支持，又可用做将数据加载到数据仓库时的过渡区域。与EDW相比，ODS是面向主题和面向综合的，易变的，仅含有目前的、详细的数据，不含有累计的、历史性的数据。③数据集市是为了特定的应用目的或应用范围，而从数据仓库中独立出来的一部分数据，也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。

2.3数据仓库与传统数据库的比较

二者的联系既有联系又有区别。数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较：

（1）出发点不同：数据库是面向事务的设计；数据仓库是面向主题设计的。（2）存储的数据不同：数据库一般存储在线交易数据；数据仓库存储的一般是历史数据。（3）设计规则不同：数据库设计是尽量避免冗余，一般采用符合范式的规则来设计；数据仓库在设计是有意引入冗余，采用反范式的方式来设计。（4）提供的功能不同：数据库是为捕获数据而设计，数据仓库是为分析数据而设计。（5）基本元素不同：数据库的基本元素是事实表，数据仓库的基本元素是维度表。（6）容量不同：数据库在基本容量上要比数据仓库小的多。（7）服务对象不同：数据库是为了高效的事务处理而设计的，服务对象为企业业务处理方面的工作人员；数据仓库是为了分析数据进行决策而设计的，服务对象为企业高层决策人员。

3数据仓库与数据挖掘的关系

当然为了数据挖掘你也不必非得建立一个数据仓库，数据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在他上面进行数据挖掘。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9982680.html

急求数据库与数据挖掘的关系文字。

发表评论

评论列表（0条）