企业如何更好的搭建数据仓库

企业如何更好的搭建数据仓库,第1张

0 引 言

随着计算机应用的深入,大量数据存储在计算机中,信息的存储、管理、使用和维护显得越来越重要,而传统的数据库管理系统很难满足其要求。为了解决大数据量、异构数据集成以及访问数据的响应速度问题,采用数据仓库技术,为最终用户处理所需的决策信息提供有效方法。

1 数据仓库

数据仓库是为管理人员进行决策提供支持的一种面向主题的、集成的、非易失的并随时间而变化的数据集合。数据仓库是一种作为决策支持系统和联机分析应用数据源的结构化数据环境。

从目前数据仓库的发展来讲,数据可以存放于不同类型的数据库中,数据仓库是将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(OLAP)和数据挖掘(DM)。OLAP是多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图,而DM则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给DM提供分析信息,作为挖掘的依据;DM可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP是联机分析处理,DM是通过对数据库、数据仓库中的数据进行分析而获得知识的方法和技术,即通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可满足企业对数据整理和信息提取的要求,帮助企业高层做出决策。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用,首先在金融、保险、证券、电信等传统数据密集型行业取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有实力的公司相继推出了数据仓库解决方案。

近几年开始流行“分布式数据仓库”,是在多个物理位置应用全局逻辑模型。数据被逻辑地分成多个域,但不同位置不会有重复的数据。这种分布式方法可以为不同的物理数据创建安全区域,或为全球不同时区的用户提供全天候的服务。此外,有由Kognitio发起数据仓库托管服务,即DBMS厂商为客户开发和运行数据仓库。这种最初出现在业务部门,业务部门购买托管服务,而不是使用企业内IT部门提供的数据仓库。

2 数据挖掘技术

数据挖掘(DataMining),又称数据库中的知识发现(KnoWledge Discoveryin Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值并最终可为用户理解的模式过程。它是数据库研究中的很有应用价值的新领域,是人工智能、机器学习、数理统计学和神经元网络等技术在特定的数据仓库领域中的应用。数据挖掘的核心模块技术历经数十年的发展,其中包括数理统计、人工智能、机器学习。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。

从技术角度讲,数据挖掘可应用于以下方面:

(1)关联规则发现是在给定的事物集合中发现满足一定条件的关联规则,简单来讲,就是挖掘出隐藏在数据间的相互关系,为业务主题提供指导。

(2)序列模式分析和关联规则发现相似,但其侧重点在于分析数据间的前后关系。模式是按时间有序的。序列模式发现是在与时间有关的事物数据库中发现满足用户给定的最小支持度域值的所有有序序列。

(3)分类分析与聚类分析,分类规则的挖掘实际上是根据分类模型从数据对象中发现共性,并把它们分成不同的类的过程。聚类时间是将d维空间的n个数据对象,划分到k个类中,使得一个类内的数据对象间的相似度高于其他类中数据对象。聚类分析可以发现没有类别标记的一组数据对象的特性,总结出一个类别的特征。

(4)自动趋势预测,数据挖掘能自动在大型数据库里面寻找潜在的预测信息。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。

3 联机分析(OLAP)处理技术

联机分析(OLAP)是数据仓库实现为决策提供支持的重要工具,是共享多维信息,针对特定问题的联机数据访问和分析的快速软件技术。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来,能够真正为用户所理解,并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术(OLAP委员会的定义)。OLAP的特性包括:①快速性:系统应能在5s内对用户的大部分分析要求做出反应;②可分析性:能处理与应用有关的任何逻辑分析和统计分析;⑨多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持;④信息性:系统应能及时获得信息,并能管理大容量信息。

OLAP的数据结构是多维,目前存在方式:①超立方结构(Hypercube),指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各部分都有相同的维属性(收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维);②多立方结构(Multicube),即将超立方结构变为子立方结构。面向某特定应用对维分割,它具有强灵活性,提高了数据(特别是稀疏数据)的分析效率。分析方法包括:切片、切块、旋转、钻取等。

OLAP也被称为共享的多维数据的快速分析FASMI,应用在数据密集型行业,如市场和销售分析、电子商务的分析、基于历史数据的营销、预算、财务报告与整合、管理报告、利益率、质量分析等。

4 小 结

采用数据仓库的数据挖掘及联机分析技术实现的决策支持系统,是弥补传统辅助决策系统能力不足的有效途径,具有重要的现实意义。

发展历史

(1)大型主机阶段

20世纪40-50年代,是第一代电子管计算机。经历了电子管数字计算机、晶体管数字计算机、集成电路数字计算机和大规模集成电路数字计算机的发展历程,计算机技术逐渐走向成熟。;

(2)小型计算机阶段

20世纪60-70年代,是对大型主机进行的第一次“缩小化”,可以满足中小企业事业单位的信息处理要求,成本较低,价格可被接受;

(3)微型计算机阶段

20世纪70-80年代,是对大型主机进行的第二次“缩小化”,1976年美国苹果公司成立,1977年就推出了AppleII计算机,大获成功。1981年IBM推出IBM-PC,此后它经历了若干代的演进,占领了个人计算机市场,使得个人计算机得到了很大的普及;

(4)客户机/服务器

即C/S阶段。随着1964年IBM与美国航空公司建立了第一个全球联机订票系统,把美国当时2000多个订票的终端用电话线连接在了一起,标志着计算机进入了客户机/服务器阶段,这种模式至今仍在大量使用。在客户机/服务器网络中,服务器是网络的核心,而客户机是网络的基础,客户机依靠服务器获得所需要的网络资源,而服务器为客户机提供网络必须的资源。C/S结构的优点是能充分发挥客户端PC的处理能力,很多工作可以在客户端处理后再提交给服务器,大大减轻了服务器的压力;

(5)Internet阶段

也称互联网、因特网、网际网阶段。互联网即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网始于1969年,是在ARPA(美国国防部研究计划署)制定的协定下将美国西南部的大学(UCLA(加利福尼亚大学洛杉矶分校)、Stanford Research Institute(史坦福大学研究学院)、UCSB(加利福尼亚大学)和University of Utah(犹他州大学))的四台主要的计算机连接起来。此后经历了文本到,到现在语音、视频等阶段,宽带越来越快,功能越来越强。互联网的特征是:全球性、海量性、匿名性、交互性、成长性、扁平性、即时性、多媒体性、成瘾性、喧哗性。互联网的意义不应低估。它是人类迈向地球村坚实的一步;

(6)云计算时代

从2008年起,云计算(Cloud Computing)概念逐渐流行起来,它正在成为一个通俗和大众化(Popular)的词语。云计算被视为“革命性的计算模型”,因为它使得超级计算能力通过互联网自由流通成为了可能。企业与个人用户无需再投入昂贵的硬件购置成本,只需要通过互联网来购买租赁计算力,用户只用为自己需要的功能付钱,同时消除传统软件在硬件,软件,专业技能方面的花费。云计算让用户脱离技术与部署上的复杂性而获得应用。云计算囊括了开发、架构、负载平衡和商业模式等,是软件业的未来模式。它基于Web的服务,也是以互联网为中心。

从事管理和维护数据库管理系统的相关工作人员的统称。

数据库系统的数据管理者简称DBA,是从事管理和维护数据库管理系统的相关工作人员的统称,属于运维工程师的一个分支,主要负责业务数据库从设计、测试到部署交付的全生命周期管理。

1936年

英国数学家AMTuring发明图灵机,为现代计算机硬件和软件做了理论上的准备。

1942年

世界上第一台电子计算机ABC研制成功,它有300个真空管,采用二进制,基本体系结构与现代计算机已无二致。

1943年

英国计算机“巨人”投入运行。不过1970年之前对它一直保密。

1945年

现代计算机之父:冯·诺依曼第一次提出存储程序计算机的概念,即“冯·诺依曼机器”。

1946年

2月10日,电子数字积分机和计算机诞生。它装有18000个真空管,总重量达30吨,耗资近50万美元,是世界上第一台多功能、全电子数字计算机,可以实现每分钟几千次乘法运算。

1946年

5月英国剑桥大学研制成功第一台冯·诺依曼机器EDSAC。

1947年

12月23日,美国贝尔电话实验室发明了世界上第一个晶体管。

1948年

曼彻斯特大学开发出世界首台存储程序机Baby。

1950年

Engineering Research Associates制造出世界上第一台商用计算机ERA 1101。

1951年

第一台数字式计算机UNIVAC1为美国人口普查创建。

1952年

Grace Hopper勾画出第一个“编译程序”蓝图,即将所有程序在执行之前都翻译成机器语言,为计算机商用做出重大贡献。

1955年

Grace Hopper开发出A-3编译器Math-Matic。

1956年

世界上第一台采用晶体管元件的电脑研制成功。

第一条跨越大西洋的电话电缆敷设完成。

Bell实验室开发出可视电话样机。

1957年

IBM设计出世界上第一个计算机硬盘RAMAC 350,直径24英寸、总容量5兆字节。

IBM开发出FORTRAN语言。

1958年

第一台商用电子管计算机Univac Model 80发布。

MIT John McCarthy开始开发Lisp语言,1960年完成。

1959年

世界上第一块集成电路问世。

发表了Cobol语言规格,于1961年完成。

1964年

IBM发布IBM System/360计算机。

1965年

DEC推出真正被业界认可的世界上第一台标准小型机PDP-8。

美国Dartmouth 学院的Thomas EKurtz 和 John Kemeny 开发出Basic语言。

世界上第一部程控电话交换机—美国贝尔系统1号电子交换机问世。

国际卫星通信组织发射了一颗半试验半实用的静止(同步)通信卫星,标志着同步卫星通信时代的开始。

1967年

美国《Computerworld》报创刊。

IBM推出世界上第一张软盘,直径为32英寸。

瑞士的Njklaus Wirth 在 Algol的基础上开始开发Pascal语言,于1971年完成。

1968年

IBM开发出世界上第一个数据库管理系统IMS。

挪威计算中心的OJDahl和KNygard发表了第一个面向对象语言Simula 67。

1969年

贝尔实验室用汇编语言开发出第一个多任务多用户的计算机分时系统Unix。

IBM允许客户分开购买它的软件和硬件,从而建立了软件市场。

美国国防部开始研究ARPANET,人们将此视为Internet的开端。

1970年

美国贝尔实验室的Ken Thompson和Dennis MRitchie开始开发Unix *** 作系统。

传输损耗仅为20分贝/公里的光纤和在室温下能连续工作的半导体激光器研制成功,光纤通信走向实用化。

1971年

Intel 开发出世界上第一个微处理器4004。

Niklaus Wirth 开 发出Pascal语言。

Gary Starkweather在施乐的实验室里研制出世界上第一台激光打印机。

1972年

Bell实验室的Dennis Ritchie开发出C语言。

国际电报电话咨询委员会(CCITT)首次提出ISDN的概念。

1973年

法国Luminy-Marseilles 大学的Alain Colmerauer 开发了Prolog语言。

马丁·库珀发明手机,成为第一个使用移动电话的人。

1974年

美国国防部开发出TCP(传输控制协议)。

Intel推出 8080微处理器,并被世界首台商业PC所采用。

Zilog公司推出处理器Z-80。

第一台商业成功的PC牛郎星8800研制成功。

IBM首次提出计算机精简指令集。

Xerox推出第一台工作站样机Xerox Alto。

在第一届计算机国际象棋冠军赛中,俄罗斯程序KAISASA获胜。

1975年

比尔·盖茨和保罗·艾伦为牛郎星开发了世界上第一套标准的微电脑软件Basic,并创办了Microsoft公司。

Xerox和斯坦福大学联合推出“以太网”(Ethernet)。该网络成为局域网的第一个工业标准产品。

1976年

第一台商业成功的巨型机Cray-1 研制成功,运算速度达每秒25亿次。

Hayes推出第一个PC调制解调器。

1977年

第一台带彩显的PC苹果II正式亮相。

世界上第一个商用光纤通信系统在美国芝加哥的两个电话局(相距7公里)之间开通。

1978年

TCP分成TCP和IP。

1981年

世界上第一台便携式电脑Osborne面世。

8月12日首次以“个人计算机(PC)”命名的IBM PC面世。它采用Intel的8088处理器和Microsoft的MS-DOS *** 作系统。

Ashton-Tate推出dBaseⅡ。

自称Captain Zap的23岁小伙子Ian Murphy潜入白宫、五角大楼和BellSouth的计算机系统。

1983年

蜂窝移动电话通信系统投入商用。

1984年

Apple推出Apple Macintosh机。

域名系统被创建。

MIPS计算机系统公司创建,并与斯坦福大学着手开发RISC体系结构。

HP推出面向个人的激光打印机。

1985年

Intel推出386微处理器。

Windows 10正式版本上市。

1986年

美国国家科学基金会创建骨干网速度为56KB/秒的NSFnet。

1987年

IBM和Microsoft公司发布OS/2 10。

柯达推出世界上首台百万像素商业数码相机。

1988年

11月1日,美国康奈尔大学的研究生Robert Morris在ARPANET中试验计算机病毒的可行性想法时,释放了一个实验性的网络蠕虫程序,在8小时之内,这一程序侵入了3000台~6000台运行Unix *** 作系统的VAX机和Sun计算机,造成严重损失。Morris既是病毒制造者,又是Internet上的首例黑客。

第一个横跨大西洋的海底通信光缆(TAT-8)系统敷设成功。

1989年

美国发射了第一颗全球定位系统(GPS)工作卫星。

英国科学家Timothy Berners Lee开发出万维网。

新加坡创新公司推出声霸卡,标志着PC多媒体时代的来临。

1990年

IBM发布基于RISC的RS/6000。

World Wide Web软件开发成功。

Internet搜索程序Archie在McGill大学问世。

最早的局域网交换机研制成功。

1991年

芬兰赫尔辛基大学学生Linus Torvalds开发出Linux *** 作系统,并将它作为自由软件传播。

1992年

3月22日Intel推出第5代芯片Pentium处理器。

1993年

Peter de Jager在《Computerworld》上发表“2000年末日”一文,对Y2K问题的危险性及解决成本提出警告。

美国克林顿政府宣布了美国国家信息基础设施的规划,简称NII,俗称信息高速公路。

Microsoft正式发布Windows NT。

1994年

美国Netscape公布用于Internet 的浏览器Navigator。

Internet进入商品化时代。

1995年

Microsoft推出32位桌面 *** 作系统Windows 95。

Microsoft推出Internet 浏览器Internet Explorer。

IP电话初次亮相,VocalTec推出Internet Phone客户软件。

世界上第一个商用CDMA移动通信网在香港开通。

Sun公司推出Java语言。

Oracle公司总裁拉里·埃里森提出网络计算机(NC)概念。

Amazon在Internet上卖出第一本书。

一些与网络有关的公司挂牌上市。Netscape成为第三大Nasdaq IPO股票价值。

域名登记不再免费,每年收费50美元。

1996年

美国34所著名大学在芝加哥发起研发“下一代Internet”项目。

可改写光盘(CD-RW)技术问世。

PDA产品Palm Pilot 1000上市。

1997年

IBM“深蓝”机上的国际象棋软件,第一次打败了世界国际象棋冠军 Gary Kasparov。

IETF提出IPv6标准。

无线局域网标准IEEE 80211出台。

Yahoo和Amazon等成功上市。

电子商务发展年,网上零售商超过了10万家。截至1997年年底,Cisco在Web网站上的网络设备销售额为30亿美元,Dell网站上每天的PC销售额达100万美元。1997年,Cisco 64亿美元的总收入的39%源于其Web网站。

1998年

iMac苹果电脑面世。

Larry Page和Sergey Brin创建了Google,Google成为被广泛应用的Internet搜索引擎。

英国广播公司(BBC)在世界上首先播放了数字电视节目。

“铱星”系统开始向全世界提供个人通信商业服务。

1月26日,Compaq以96亿美元收购DEC。

加拿大北方电讯以91亿美元并购美国Bay。

10月19日美国联邦法院决定正式开庭审理美国司法部和20个州政府对微软所提起的反垄断诉讼。

11月服务商American Online以42亿美元股价收购Netscape 通信公司。

1999年

1月14日朗讯科技宣布以240亿美元收购Ascend。

2000年

1月10日全球最大的Internet接入服务商America Online宣布以总交易金额超过1600亿美元的换股方式并购Time Warner。

5月17日全球最大的网上时装零售企业、欧洲资金最雄厚的com公司宣布倒闭。美国至少有130家Internet公司因资金枯竭而倒闭。

美IT市场增速9年来首次放缓。

2001年

4月24日IBM公司宣布以10亿美元现金收购Informix的数据库业务。

5月29日Intel第一款64位处理器芯片Itanium正式发布。

8月28日Microsoft发布第一个64位Windows *** 作系统Windows Advanced Server限制版。

9月4日,HP宣布将以250亿美元的股票交易价格收购Compaq。

9月NTT DoCoMo在全球率先启动3G服务。

10月25日Microsoft发布Windows XP。

12月NTT公司宣布将与Intel、SGI公司联合进行网格计算试验。

2002年

5月IEEE 8023以太网标准组织批准了万兆以太网标准的最后草案。

IBM公司宣布投资10亿美元支持Linux。

IDC表示,-23%的增长率使2002年成为IT产业有史以来最差的一年。

IBM宣布将投入100亿美元用于按需计算(On Demand)。

Nasdaq指数跌至6年前com兴起前的水平。

2003年

3月SCO以“不当利用本公司拥有知识产权的Linux *** 作系统”为由起诉IBM。

3月12日Intel公司在全球同步发布其最新一代移动计算技术Centrino(迅驰)。

AMD推出分别面向桌面与移动计算平台的AMD Athlon 64位微处理器。

Apple推出在线音乐服务,开张后的第一周内就以每首歌99美分的价格销售了100万首。

2004年

1月14日RFID(Radio Frequency Identification)标准组织EPCgloba称确定了第一个全球性标准,以加速各公司采用RFID技术改进其供应链的运作。

4月2日,美国Sun公司宣布与微软公司达成一项为期十年的合作协议,了结了一切未决诉讼。根据协议,微软将向Sun支付7亿美元以解决所有未决反垄断问题,另外支付9亿美元解决所有专利问题。

6月28日Intel推出基于32/64位至强处理器的新平台系统。

以上就是关于企业如何更好的搭建数据仓库全部的内容,包括:企业如何更好的搭建数据仓库、电脑发展史、数据库系统的数据管理者是等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10171827.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存