企业如何更好的搭建数据仓库

企业如何更好的搭建数据仓库,第1张

0 引 言

随着计算机应用的深入,大量数据存储在计算机中,信息的存储、管理、使用和维护显得越来越重要,而传统的数据库管理系统很难满足其要求。为了解决大数据量、异构数据集成以及访问数据的响应速度问题,采用数据仓库技术,为最终用户处理所需的决策信息提供有效方法。

1 数据仓库

数据仓库是为管理人员进行决策提供支持的一种面向主题的、集成的、非易失的并随时间而变化的数据集合。数据仓库是一种作为决策支持系统和联机分析应用数据源的结构化数据环境。

从目前数据仓库的发展来讲,数据可以存放于不同类型的数据库中,数据仓库是将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(OLAP)和数据挖掘(DM)。OLAP是多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图,而DM则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给DM提供分析信息,作为挖掘的依据;DM可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP是联机分析处理,DM是通过对数据库、数据仓库中的数据进行分析而获得知识的方法和技术,即通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可满足企业对数据整理和信息提取的要求,帮助企业高层做出决策。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用,首先在金融、保险、证券、电信等传统数据密集型行业取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有实力的公司相继推出了数据仓库解决方案。

近几年开始流行“分布式数据仓库”,是在多个物理位置应用全局逻辑模型。数据被逻辑地分成多个域,但不同位置不会有重复的数据。这种分布式方法可以为不同的物理数据创建安全区域,或为全球不同时区的用户提供全天候的服务。此外,有由Kognitio发起数据仓库托管服务,即DBMS厂商为客户开发和运行数据仓库。这种最初出现在业务部门,业务部门购买托管服务,而不是使用企业内IT部门提供的数据仓库。

2 数据挖掘技术

数据挖掘(DataMining),又称数据库中的知识发现(KnoWledge Discoveryin Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值并最终可为用户理解的模式过程。它是数据库研究中的很有应用价值的新领域,是人工智能、机器学习、数理统计学和神经元网络等技术在特定的数据仓库领域中的应用。数据挖掘的核心模块技术历经数十年的发展,其中包括数理统计、人工智能、机器学习。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。

从技术角度讲,数据挖掘可应用于以下方面:

(1)关联规则发现是在给定的事物集合中发现满足一定条件的关联规则,简单来讲,就是挖掘出隐藏在数据间的相互关系,为业务主题提供指导。

(2)序列模式分析和关联规则发现相似,但其侧重点在于分析数据间的前后关系。模式是按时间有序的。序列模式发现是在与时间有关的事物数据库中发现满足用户给定的最小支持度域值的所有有序序列。

(3)分类分析与聚类分析,分类规则的挖掘实际上是根据分类模型从数据对象中发现共性,并把它们分成不同的类的过程。聚类时间是将d维空间的n个数据对象,划分到k个类中,使得一个类内的数据对象间的相似度高于其他类中数据对象。聚类分析可以发现没有类别标记的一组数据对象的特性,总结出一个类别的特征。

(4)自动趋势预测,数据挖掘能自动在大型数据库里面寻找潜在的预测信息。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。

3 联机分析(OLAP)处理技术

联机分析(OLAP)是数据仓库实现为决策提供支持的重要工具,是共享多维信息,针对特定问题的联机数据访问和分析的快速软件技术。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来,能够真正为用户所理解,并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术(OLAP委员会的定义)。OLAP的特性包括:①快速性:系统应能在5s内对用户的大部分分析要求做出反应;②可分析性:能处理与应用有关的任何逻辑分析和统计分析;⑨多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持;④信息性:系统应能及时获得信息,并能管理大容量信息。

OLAP的数据结构是多维,目前存在方式:①超立方结构(Hypercube),指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各部分都有相同的维属性(收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维);②多立方结构(Multicube),即将超立方结构变为子立方结构。面向某特定应用对维分割,它具有强灵活性,提高了数据(特别是稀疏数据)的分析效率。分析方法包括:切片、切块、旋转、钻取等。

OLAP也被称为共享的多维数据的快速分析FASMI,应用在数据密集型行业,如市场和销售分析、电子商务的分析、基于历史数据的营销、预算、财务报告与整合、管理报告、利益率、质量分析等。

4 小 结

采用数据仓库的数据挖掘及联机分析技术实现的决策支持系统,是弥补传统辅助决策系统能力不足的有效途径,具有重要的现实意义。

从目前的数据库及数据仓库建模方法来说,主要分为四类。

第一类是大家最为熟悉的关系数据库的三范式建模,通常我们将三范式建模方法用于建立各种 *** 作型数据库系统。

第二类是Inmon提倡的三范式数据仓库建模,它和 *** 作型数据库系统的三范式建模在侧重点上有些不同。Inmon的数据仓库建模方法分为三层,第一层是实体关系层,也即企业的业务数据模型层,在这一层上和企业的 *** 作型数据库系统建模方法是相同的;第二层是数据项集层,在这一层的建模方法根据数据的产生频率及访问频率等因素与企业的 *** 作型数据库系统的建模方法产生了不同;第三层物理层是第二层的具体实现。

第三类是Kimball提倡的数据仓库的维度建模,我们一般也称之为星型结构建模,有时也加入一些雪花模型在里面。维度建模是一种面向用户需求的、容易理解的、访问效率高的建模方法,也是笔者比较喜欢的一种建模方式。

第四类是更为灵活的一种建模方式,通常用于后台的数据准备区,建模的方式不拘一格,以能满足需要为目的,建好的表不对用户提供接口,多为临时表。

下面简单谈谈第四类建模方法的一些的经验。

数据准备区有一个最大的特点,就是不会直接面对用户,所以对数据准备区中的表进行 *** 作的人只有ETL工程师。ETL工程师可以自己来决定表中数据的范围和数据的生命周期。下面举两个例子:

1)数据范围小的临时表

当需要整合或清洗的数据量过大时,我们可以建立同样结构的临时表,在临时表中只保留我们需要处理的部分数据。这样,不论是更新还是对表中某些项的计算都会效率提高很多。处理好的数据发送入准备加载到数据仓库中的表中,最后一次性加载入数据仓库。

2)带有冗余字段的临时表

由于数据准备区中的表只有自己使用,所以建立冗余字段可以起到很好的作用而不用承担风险。

举例来说,笔者在项目中曾遇到这样的需求,客户表{客户ID,客户净扣值},债项表{债项ID,客户ID,债项余额,债项净扣值},即客户和债项是一对多的关系。其中,客户净扣值和债项余额已知,需要计算债项净扣值。计算的规则是按债项余额的比例分配客户的净扣值。这时,我们可以给两个表增加几个冗余字段,如客户表{客户ID,客户净扣值,客户余额},债项表{债项ID,客户ID,债项余额,债项净扣值,客户余额,客户净扣值}。这样通过三条SQL就可以直接完成整个计算过程。将债项余额汇总到客户余额,将客户余额和客户净扣值冗余到债项表中,在债项表中通过(债项余额×客户净扣值/客户余额)公式即可直接计算处债项净扣值。

另外还有很多大家可以发挥的建表方式,如不需要主键的临时表等等。总结来说,正因为数据准备区是不对用户提供接口的,所以我们一定要利用好这一点,以给我们的数据处理工作带来最大的便利为目的来进行数据准备区的表设计。

1。数据挖掘是从4大c量的数据中5,抽取出潜在的、有价值的知识(模型或规则)的过程。 4。 数据挖掘能做什2么r? 7)数据挖掘能做以4下v六7种不m同事情(分7析方2法): · 分0类 (Classification) · 估值(Estimation) · 预言(Prediction) · 相关性分8组或关联规则(Affinity grouping or association rules) · 聚集(Clustering) · 描述和可视化1(Des cription and Visualization) 8)数据挖掘分5类 以8上r六2种数据挖掘的分6析方6法可以6分0为3两类:直接数据挖掘;间接数据挖掘 · 直接数据挖掘 目标是利用可用的数据建立一x个i模型,这个e模型对剩余的数据,对一u个k特定的变量(可以2 理解成数据库中7表的属性,即列)进行描述。 · 间接数据挖掘 目标中5没有选出某一u具体的变量,用模型进行描述;而是在所有的变量中5建立起某种关系 · 分6类、估值、预言属于e直接数据挖掘;后三j种属于r间接数据挖掘 2)各种分1析方6法的简介2 · 分2类 (Classification) 首先从1数据中1选出已i经分6好类的训练集,在该训练集上v运用数据挖掘分3类的技术,建立分2 类模型,对于a没有分4类的数据进行分4类。 例子x: a。 xyk申请者,分4类为8低、中2、高风5险 b。 分0配客户4到预先定义e的客户0分2片0 注意: 类的个s数是确定的,预先定义q好的 · 估值(Estimation) 估值与e分2类类似,不p同之z处在于m,分7类描述的是离散型变量的输出,而估值处理连续值的 输出;分7类的类别是确定数目的,估值的量是不b确定的。 例子w: a。 根据购买模式,估计8一w个f家庭的孩子h个c数 b。 根据购买模式,估计7一z个r家庭的收入l c。 估计5real estate的价值 一b般来说,估值可以0作为2分1类的前一v步工e作。给定一r些输入w数据,通过估值,得到未知的 连续变量的值,然后,根据预先设定的阈值,进行分6类。例如:银行对家庭贷款业务,运 用估值,给各个z客户8记分3(Score 0~1)。然后,根据阈值,将贷款级别分7类。 · 预言(Prediction) 通常,预言是通过分1类或估值起作用的,也k就是说,通过分3类或估值得出模型,该模型用 于v对未知变量的预言。从8这种意义l上e说,预言其实没有必要分0为6一s个o单独的类。 预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一b定时 间后,才q知道预言准确性是多少6。 · 相关性分6组或关联规则(Affinity grouping or association rules) 决定哪些事情将一c起发生。 例子e: a。 超市中1客户2在购买A的同时,经常会购买B,即A => B(关联规则) b。 客户4在购买A后,隔一g段时间,会购买B (序列分5析) · 聚集(Clustering) 聚集是对记录分2组,把相似的记录在一t个s聚集里。聚集和分0类的区z别是聚集不s依赖于c预先 定义y好的类,不g需要训练集。 例子z: a。 一y些特定症状的聚集可能预示7了z一s个r特定的疾病 b。 租VCD类型不b相似的客户1聚集,可能暗示7成员属于b不o同的亚文7化2群 聚集通常作为3数据挖掘的第一b步。例如,"哪一j种类的促销对客户6响应最好?",对于j这一p 类问题,首先对整个y客户8做聚集,将客户5分5组在各自的聚集里,然后对每个a不a同的聚集, 回答问题,可能效果更好。 · 描述和可视化8(Des cription and Visualization) 是对数据挖掘结果的表示6方1式。 8。数据挖掘的商业背景 数据挖掘首先是需要商业环境中3收集了j大i量的数据,然后要求挖掘的知识是有价值的。有 价值对商业而言,不i外乎三t种情况:降低开l销;提高收入e;增加股票价格。 6)数据挖掘作为0研究工e具 (Research) 0)数据挖掘提高过程控制(Process Improvement) 6)数据挖掘作为5市场营销工q具(Marketing) 8)数据挖掘作为7客户7关系管理CRM工m具(Customer Relationship Management) 7。数据挖掘的技术背景 2)数据挖掘技术包括三c个v主要部分3:算法和技术;数据;建模能力w 6)数据挖掘和机器学习u(Machine Learning) · 机器学习n是计8算机科学和人x工f智能AI发展的产物 · 机器学习o分6为2两种学习m方6式:自组织学习z(如神经网络);从8例子r中8归纳出规则(如决 策树) · 数据挖掘由来 数据挖掘是八r十c年代,投资AI研究项目失败后,AI转入v实际应用时提出的。它是一z个d新兴 的,面向商业应用的AI研究。选择数据挖掘这一y术语,表明了d与z统计3、精算、长0期从3事预 言模型的经济学家之q间没有技术的重叠。 5)数据挖掘和统计6 统计8也d开o始支y持数据挖掘。统计0本包括预言算法(回归)、抽样、基于t经验的设计8等 1)数据挖掘和决策支h持系统 · 数据仓1库 · OLAP(联机分5析处理)、Data Mart(数据集市)、多维数据库 · 决策支n持工k具融合 将数据仓8库、OLAP,数据挖掘融合在一n起,构成企业决策分0析环境。 8。 数据挖掘的社会背景 数据挖掘与d个n人w预言:数据挖掘号称能通过历f史数据的分8析,预测客户2的行为7,而事实上v ,客户8自己m可能都不p明确自己u下x一c步要作什3么u。所以2,数据挖掘的结果,没有人y们想象中1 神秘,它不z可能是完全正确的。 客户5的行为3是与c社会环境相关连的,所以4数据挖掘本身也w受社会背景的影响。比6如说,在 美国对银行xyk客户0信用评级的模型运行得非常成功,但是,它可能不i适合中0国。 2。数据仓7库是在企业管理和决策中4面向主题的、集成的、与w时间相关的、不o可修改的数据集合 数据仓2库,英文1名称为4Data Warehouse,可简写为1DW。 数据仓1库之q父8Bill Inmon在4512年出版的“Building the Data Warehouse”一m书2中0所提出的定义f被广s泛接受——数据仓3库(Data Warehouse)是一y个s面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反2映历b史变化8(Time Variant)的数据集合,用于f支l持管理决策(Decision Making Support)。 ◆面向主题: *** 作型数据库的数据组织面向事务处理任务,各个p业务系统之b间各自分6离,而数据仓0库中3的数据是按照一r定的主题域进行组织的。 ◆集成的:数据仓8库中3的数据是在对原有分2散的数据库数据抽取、清理的基础上j经过系统加工l、汇总和整理得到的,必须消除源数据中4的不e一r致性,以2保证数据仓6库内4的信息是关于m整个b企业的一s致的全局信息。 ◆相对稳定的:数据仓8库的数据主要供企业决策分0析之w用,所涉及t的数据 *** 作主要是数据查询,一f旦某个t数据进入u数据仓3库以2后,一d般情况下c将被长7期保留,也v就是数据仓0库中8一p般有大v量的查询 *** 作,但修改和删除 *** 作很少3,通常只需要定期的加载、刷新。 ◆反8映历h史变化3:数据仓3库中2的数据通常包含历e史信息,系统记录了j企业从4过去某一q时点(如开d始应用数据仓7库的时点)到目前的各个p阶段的信息,通过这些信息,可以0对企业的发展历j程和未来趋势做出定量分2析和预测。 数据仓4库是一k个u过程而不n是一d个q项目。 数据仓2库系统是一f个f信息提供平台,他从4业务处理系统获得数据,主要以6星型模型和雪花模型进行数据组织,并为2用户8提供各种手8段从7数据中0获取信息和知识。 从7功能结构化6分6,数据仓1库系统至少6应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三x个z关键部分2 数据挖掘(Data Mining),又i称为3数据库中3的知识发现(Knowledge Discovery in Database, KDD),就是从5大x量数据中0获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡l过程,简单的说,数据挖掘就是从6大o量数据中7提取或“挖掘”知识。 并非所有的信息发现任务都被视为0数据挖掘。例如,使用数据库管理系统查找个z别的记录,或通过因特网的搜索引4擎查找特定的Web页面,则是信息检索(。rmation retrieval)领域的任务。虽然这些任务是重要的,可能涉及n使用复杂的算法和数据结构,但是它们主要依赖传统的计8算机科学技术和数据的明显特征来创建索引3结构,从7而有效地组织和检索信息。尽管如此,数据挖掘技术也u已g用来增强信息检索系统的能力h。 2。数据挖掘和数据仓4库以3数据库为8基础。b〔b〔fu莹qθx骇础τyケqθtr●

数据库设计就是根据业务系统的具体需要,结合我们所选用的数据库管理系统,为这个业务系统构造出最优的数据存储模型。并建立好的数据库中的表结构及表与表之间的关联关系的过程。使之能有效的对应用系统中的数据进行存储,并可以高效的对已经存储的数据进行访问。数据库设计的步骤为需求分析,逻辑设计,物理设计,维护优化。

数据库的六个设计过程

1、系统需求分析阶段:分析用户的需求,包括数据、功能和性能需求

2、概念结构设计:主要采用E-R模型进行设计,包括画E-R图

3、逻辑结构设计:通过将E-R图转换成表,实现从E-R模型到关系模型的转换,进行关系规范化

4、数据库物理设计:主要是为所设计的数据库选择合适的存储结构和存储路径;

5、数据库的实施:包括编程、测试和试运行

6、数据库运行和维护:系统的运行和数据库的日常维护

扩展资料:

数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等 *** 作。

数据库设计的基本步骤:

1、系统需求分析与设计。

2、概念结构分析与设计。

3、逻辑结构分析与设计。

4、物理结构分析与设计。

5、系统实施。

6、系统维护。

扩展资料:

数据库设计技巧:

1、原始文件与实体的关系

它可以是一对一,一对多,多对多的关系。一般来说,它们是一对一的关系:一个原始文档只对应于一个实体。在特殊情况下,它们可以是一对多或多对一关系,即一个原始文档对应于多个实体,或者多个原始文档对应于一个实体。

这里的实体可以理解为基本表。在对应关系明确后,对输入接口的设计非常有利。

2、主键和外键

一般来说,实体不能既没有主键也没有外键。在E-R图中,叶中的实体可以定义主键或不定义主键(因为它没有子代),但它必须有外键(因为它有父项)。

主键和外键的设计在全局数据库的设计中起着重要的作用。当全球数据库的设计完成后,一位美国数据库设计专家说:“钥匙无处不在,只有钥匙。”。这是他数据库设计的经验,也体现了他对信息系统核心(数据模型)高度抽象的理念。

因为:主键是一个高度抽象的实体。主键和外键的配对表示实体之间的连接。

3、基本表的属性

基本表不同于中间表和临时表,因为它具有以下四个特点:

原子性。基本表中的字段不可分解。

原始主义。基本表中的记录是原始数据(基本数据)的记录。

演绎的。所有输出数据都可以从基本表和代码表中的数据导出。

稳定。基本表的结构比较稳定,表中的记录要长期保存。

在了解基本表的性质之后,在设计数据库时,可以将基本表与中间表和临时表区分开来。

来源:百度百科-数据库设计

以上就是关于企业如何更好的搭建数据仓库全部的内容,包括:企业如何更好的搭建数据仓库、数据建模的分析方法有哪些并写出他们的大概介绍、数据挖掘问题··等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10192750.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存