部署大数据业务七步走
对于大数据,有三个重要的事实。首先,它并不是新趋势。亚马逊、微软和谷歌自上世纪90年代就开始进行大数据工作。事实上,几十年来,很多公司都一直在挖掘数据。可能由于当时只有资金雄厚的大型公司才能够进行大数据研究,但大数据确实早已存在。现在,基于廉价的计算和存储能力以及新工具和技术,几乎每个人都可以使用高级数据挖掘技术和算法了。
很多人认为大数据只是商业智能(BI)的新名称,虽然这两者有相似之处,但大数据超出了BI的范畴。
第二个事实:“大”是相对的。现在各行业各组织确实正面对创纪录水平的数据增长。据IDC称,我们每秒创造超过58 TB数据,到2020年,将拥有超过35ZB的存储数据。然而,大数据并不一定是巨大的,大数据并不在于其规模,而在于你需要如何处理它。拥有100 TB的小公司可能也存在大数据问题,因为他们需要提取、分析数据,并作出决策。
第三,大数据处理中使用的数据的定义是广泛的,它可以包含结构化和非结构化数据。对于一些公司来说,最重要的是大数据的元数据,或者关于数据的数据。
麦肯锡将大数据定义为“其规模超出传统数据库软件的捕捉、存储、管理和分析能力的数据集”,笔者补充了这一点:“这些数据集需要大量运行在数百甚至数千台服务器(云)的并行软件(系统)来处理。”
以下是大数据成功的7个步骤:
第1步:承认存在问题。 这往往是最难的一步。10年前,我们拒绝承认我们的网络已不再受防火墙和代理服务器设置的保护,而我们不得不为员工远程访问开放基础设施并拥抱互联网。对于大数据,IT领导者需要评估其数据情况:
● 你的数据集让你不堪重负吗?
● 你不知道所有数据的位置?
● 你(或者企业领导者)没有从你的数据中得到所需的信息?
● 企业领导没有基于数据来做决策?
● 有可能提高IT在企业政策和战略决策中的相关性吗?
如果你像大多数公司一样,部分或者所有这些问题的答案都是肯定的,那么是时候控制你的数据,并从中挖掘出情报以提供给领导层做决定。
第2步:认识到大数据带来的大机会。 我们总是被告知要紧密联系业务,“业务技术”这一说法已存在多年,但我们总是很难看到最新的软件和流程如何直接影响收入或者全球经济增长。而大数据却可以。为什么?因为信息就是力量,企业领导需要数据中挖掘出的信息来帮助企业竞争和发展。员工、客户和市场产生的大量数据让整个企业(从销售到营销部门)都不堪重负。而大数据能够为你提供简洁且实时的价值信息,帮助增加收入。[page]
第3步:制定大数据计划。 与任何计划一样,你开始就应该想到结果。企业需要知道什么?他们需要回答的问题是什么?在你开始使用Hadoop前,解决这些问题,并签订联合协议。然后按照下列步骤 *** 作(每个步骤可能需要数周或者数月):
1、隔离属于“大数据”的部分数据
2、分离“产品”大数据和“公司”大数据,例如人力资源分析需要的员工数据和电子商务平台的客户或产品搜索数据需要分离
3、认识和了解你的数据的波峰和波谷
4、了解哪些技术允许实时(或接近实时)大数据处理
5、确定关键的解决方案/供应商
6、从小事做起,评估与发展-先做一个项目,让你可以快速展示成果和ROI,然后转移到下一个大数据项目
7、继续分析、调整和输入-大数据是灵活的,需要随着数据、情报和企业要求的变化进行调整
第4步:利用分布式系统。大数据要求我们转换对系统和基础设施的想法。正如虚拟化从根本上改变了我们利用服务器和应用程序的方式,分布式系统和处理使我们能够管理大数据,因为分布式架构允许我们将问题分解成很多小任务,然后将这些任务分配到多个系统。好消息是,我们拥有了越来越多的攻击和架构框架可以利用,包括Cassandra、Hadoop、VMware、Red Hat等。分布式系统并不新鲜,但大数据将其带入到全新的水平,分布式方法包括:
● 多租户架构
● 分布式数据库
● 虚拟化
● 多线程
● 多核心CPU
● 并行处理
● 分布式文件系统
● 分布式负载平衡
● RAID算法
第5步:从分布式到分散式。 对大多数公司来说,这是真正的范式转变,这也是大数据和云计算结合的地方,鉴于互联网是世界上最大的分布式和分散的系统,我们应该更加充分地利用互联网来实现大数据。
我们很喜欢分布式实例或者计算处理,但分散式往往有种失去控制的感觉。这有必要吗?对于大数据,采用分散式做法是必要的,因为由于过度和孤立的服务,所有未使用的实例和存储容量都将浪费。
更重要的是,单靠分布式组件无法让我们跟上数据增长的步伐。IDC估计,到2020年,产生的数据和数据中心容量之间的差距将达到60%
然而,部分原因在于我们没有充分利用我们已经拥有的容量。Gartner估计,大多数计算机、服务器和网络只运行了30%的容量以准备好应对峰值或者未来增长。虽然我们可能永远不会以90%或者100%的容量运行,但我们可以更好地利用现有的容量,节省数百万美元,提高现有基础设施的总体拥有成本(TCO)。
分散式方法的主要特点:
● 没有中央瓶颈
● 大量的能力
● 有机的,需求推动容量增长
● 充分利用现有的基础设施和边缘设备
● 信息共享
● 假定每个人/每一个节点是“不可信任的”
● 地理分布:
○ 所有权和参与
○ 成本
○ 管理开销
○ 风险
分散式方法存在很多很好的例子,其中最知名的就是开源运动。
分散式方法还有两个新例子,笔者定义为分散式云系统:CloudStack和OpenStack我们仍然位于分散式方法的早期阶段,但随着数据继续增长,这将是未来几年的重要趋势。[page]
第6步:雇佣/培养合适的人才和技能。 云计算并不意味着更少的IT工作,但云计算和大数据的出现却是意味着我们需要发展我们的技能和培养人才。在大数据世界,数据库管理员等现有岗位变得更加重要。你还需要培养和招聘的其他职位包括:
● 数据科学家
● 架构师
● 随机理论师(算法)
● 业务分析师
● UX/UI专家
其中一些职位似乎是合乎逻辑的,但对于业务分析师和UX/UI专家,传统上不属于IT部门,你可以将这些人员安排在生产管理中,而在大数据解决方案中,他们需要携手开发和运营团队。这是因为你不能直接将大数据信息交给业务方面,使用图表和易于理解的分析是关键。
此外,如果你还没有整合开发/运营团队来更好地管理云计算部署,那么现在可以这样做了。这两个团队必须携手合作来实现任何云计算或者大数据战略。
第7步:通过大数据来利用数据。正如IT职位可能开始更倾向于业务,IT需要改变其度量的方式。你的团队中的每个人都应该热衷于追踪和记录关键性能指标(KPI),这些应该符合业务指标,而不只是及时发布和交付高质量代码。技术团队的每个人都应该有明确的指标,并努力寻找新方法来提高指标结果。
大数据可能不是我们所有人想要的答案,但它确实给IT创造了帮助企业提高收入的机会。
你问的这个架构方式,是目前最典型、最常见的多层架构。
举一个最简单的例子:
假设某公司要部署一个办公自动化系统(OA),系统是采用的ASPNET开发的,数据库是SQLServer2005。该公司有2台Windows2008服务器,其中一台A上安装数据库SQLServer2005,另外一台B上安装OA系统。公司的员工通过浏览器来访问位于服务器B上的OA系统。
一、数据库技术的历史和发展
数据库技术是本世纪60年代开始兴起的一门信息管理自动化的新兴学科,是计算机科学中的
一个重要分支。随着计算机应用的不断发展,在计算机应用领域中,数据处理越来越占主导
地位,数据库技术的应用也越来越广泛。
数据库是数据管理的产物。数据管理是数据库的核心任务,内容包括对数据的分类、组织、
编码、储存、检索和维护。随着计算机硬件和软件的发展,数据库技术也不断地发展。从数据
管理的角度看,数据库技术到目前共经历了人工管理阶段、文件系统阶段和数据库系统阶段。 A人工管理阶段 人工管理阶段是指计算机诞生的初期(即20世纪50年代后期之前),这个时期的计算机主要用
于科学计算。从硬件看,没有磁盘等直接存取的存储设备;从软件看,没有 *** 作系统和管理
数据的软件,数据处理方式是批处理。 这个时期数据管理的特点是:
1 数据不保存
该时期的计算机主要应用于科学计算,一般不需要将数据长期保存,只是在计算某一课题
时将数据输入,用完后不保存原始数据,也不保存计算结果。
2 没有对数据进行管理的软件系统
程序员不仅要规定数据的逻辑结构,而且还要在程序中设计物理结构,包括存储结构、存
取方法、输入输出方式等。因此程序中存取数据的子程序随着存储的改变而改变,数据与
程序不具有一致性。
3 没有文件的概念
数据的组织方式必须由程序员自行设计。
4 一组数据对应于一个程序,数据是面向应用的
即使两个程序用到相同的数据,也必须各自定义、各自组织,数据无法共享、无法相互利
用和互相参照,从而导致程序和程序之间有大量重复的数据。 B文件系统阶段 文件系统阶段是指计算机不仅用于科学计算,而且还大量用于管理数据的阶段(从50年代后
期到60年代中期)。在硬件方面,外存储器有了磁盘、磁鼓等直接存取的存储设备。在软件
方面, *** 作系统中已经有了专门用于管理数据的软件,称为文件系统。 这个时期数据管理的特点是: 1 数据需要长期保存在外存上供反复使用 由于计算机大量用于数据处理,经常对文件进行查询、修改、插入和删除等 *** 作,所以数
据需要长期保留,以便于反复 *** 作。 2 程序之间有了一定的独立性 *** 作系统提供了文件管理功能和访问文件的存取方法,程序和数据之间有了数据存取的接
口,程序可以通过文件名和数据打交道,不必再寻找数据的物理存放位置,至此,数据有
了物理结构和逻辑结构的区别,但此时程序和数据之间的独立性尚还不充分。 3 文件的形式已经多样化 由于已经有了直接存取的存储设备,文件也就不再局限于顺序文件,还有了索引文件、链
表文件等,因而,对文件的访问可以是顺序访问,也可以是直接访问。 4 数据的存取基本上以记录为单位 C数据库系统阶段 数据库系统阶段是从60年代后期开始的。在这一阶段中,数据库中的数据不再是面向某个应
用或某个程序,而是面向整个企业(组织)或整个应用的。 数据库系统阶段的特点是: 1 采用复杂的结构化的数据模型 数据库系统不仅要描述数据本身,还要描述数据之间的联系。这种联系是通过存取路径来
实现的。 2 较高的数据独立性 数据和程序彼此独立,数据存储结构的变化尽量不影响用户程序的使用。 3 最低的冗余度 数据库系统中的重复数据被减少到最低程度,这样,在有限的存储空间内可以存放更多的
数据并减少存取时间。 4 数据控制功能 数据库系统具有数据的安全性,以防止数据的丢失和被非法使用;具有数据的完整性,以
保护数据的正确、有效和相容;具有数据的并发控制,避免并发程序之间的相互干扰;具
有数据的恢复功能,在数据库被破坏或数据不可靠时,系统有能力把数据库恢复到最近某
个时刻的正确状态。二、三代数据库系统的发展 数据模型是数据库系统的核心。按照数据模型发展的主线,数据库技术的形成过程和发展可从
以下三个方面反映: A 第一代数据库系统 层次和网状数据库管理系统 层次和网状数据库的代表产品是IBM公司在1969年研制出的层次模型数据库管理系统。层次
数据库是数据库系统的先驱,而网状数据库则是数据库概念、方法、技术的奠基。 B 第二代数据库系统 关系数据库管理系统(RDBMS) 1970年,IBM公司的研究员EFCodd在题为《大型共享数据库数据的关系模型》的论文中提
出了数据库的关系模型,为关系数据库技术奠定了理论基础。到了80年代,几乎所有新开发
的数据库系统都是关系型的。 真正使得关系数据库技术实用化的关键人物是James Gray。Gray在解决如何保障数据的完整
性、安全性、并发性以及数据库的故障恢复能力等重大技术问题方面发挥了关键作用。 关系数据库系统的出现,促进了数据库的小型化和普及化,使得在微型机上配置数据库系统成
为可能。 C 新一代数据库技术的研究和发展 目前已从多方面发展了现行的数据库系统技术。我们可以从数据模型、新技术内容、应用领
域三个方面概括新一代数据库系统的发展。 (1) 面向对象的方法和技术对数据库发展的影响最为深远 80年代,面向对象的方法和技术的出现,对计算机各个领域,包括程序设计语言、软件工程、
信息系统设计以及计算机硬件设备等都产生了深远的影响,也给面临新挑战的数据库技术带
来了新的机遇和希望。数据库研究人员借鉴和吸收了面向对象的方法和技术,提出了面向对
象的数据库模型(简称对象模型)。当前有许多研究是建立在数据库已有的成果和技术上的,
针对不同的应用,对传统的DBMS,主要是RDBMS进行不同层次上的扩充,例如建立对象关
系(OR)模型和建立对象关系数据库(ORDB)。 (2) 数据库技术与多学科技术的有机结合 数据库技术与多学科技术的有机结合是当前数据库发展的重要特征。计算机领域中其他新兴
技术的发展对数据库技术产生了重大影响。传统的数据库技术和其他计算机技术的结合、互
相渗透,使数据库中新的技术内容层出不穷。数据库的许多概念、技术内容、应用领域,甚
至某些原理都有了重大的发展和变化。建立和实现了一系列新型的数据库,如分布式数据库、
并行数据库、演绎数据库、知识库、多媒体库、移动数据库等,它们共同构成了数据库大家
族。 (3) 面向专门应用领域的数据库技术的研究 为了适应数据库应用多元化的要求,在传统数据库基础上,结合各个专门应用领域的特点,
研究适合该应用领域的数据库技术,如工程数据库、统计数据库、科学数据库、空间数据库、
地理数据库、Web数据库等,这是当前数据库技术发展的又一重要特征。 同时,数据库系统结构也由主机/终端的集中式结构发展到网络环境的分布式结构,随后又发
展成两层、三层或多层客户/服务器结构以及Internet环境下的浏览器/服务器和移动环境下的
动态结构。多种数据库结构满足了不同应用的需求,适应了不同的应用环境。
按照规范的设计方法,一个完整的数据库设计一般分为以下六个阶段:
⑴ 需求分析:分析用户的需求,包括数据、功能和性能需求;
⑵ 概念结构设计:主要采用E-R模型进行设计,包括画E-R图;
⑶ 逻辑结构设计:通过将E-R图转换成表,实现从E-R模型到关系模型的转换;
⑷ 数据库物理设计:主要是为所设计的数据库选择合适的存储结构和存取路径;
⑸ 数据库的实施:包括编程、测试和试运行;
⑹ 数据库运行与维护:系统的运行与数据库的日常维护。
数据库设计步骤:1规划 2需求分析 3概念设计 4逻辑结构设计 5数据库的物理设计 6数据库的实现 7数据库的运行与维护
第一步,规划。规划阶段的主要任务是进行建立数据库的必要性及可行性分析。如系统调查(即对企业全面调查,画出组织层次图,以了企业组织结构),可行性分析,确定DBS(数据库系统)的总目标和制定项目开发计划。
第二步,需求分析。需求分析阶段应该对系统的整个应用情况作全面的、详细的调查,确定企业组织的目标,收集支持系统总的设计目标的基础数据和对这些数据的要求,确定用户的需求,并把这些要求写成用户和数据库设计者都能够接受的需求分析报告。这一阶段的工作只要有,分析用户活动,产生业务流程图;确定系统范围,产生体统范围图;分析用户活动涉及的数据,产生数据流程图;分析系统数据,产生数据字典。
第三步,概念设计。概念设计的目标是产生反应企业组织信息需求的数据库概念结构,即设计出独立与计算机硬件和DBMS(数据库管理系统)的概念模式。E-R模型是主要设计工具。
第四步,逻辑结构设计。其目的是把概念设计阶段设计好的全局E-R模式转换成与选用的具体机器上的DBMS所支持的数据模型相符合的逻辑结构(包括数据库模式和外模式)。
第五步,数据库的物理设计。对于给定的数据模型选取一个最适合应用应用环境的物理结构的过程。数据库的物理结构主要指数据库的存储记录格式、存储记录安排和存取方法,完全依赖于给定的硬件环境赫尔数据库产品。
第六步,数据库的实现。该阶段主要有3项工作:1建立实际数据库结构 2装入试验数据对应用程序进行调试 3装入实际数据,进入试运行状态。
第七步,数据库的运行与维护。数据库系统的正式运行,标志着数据库设计与应用开发工作的结束和维护阶段的开始,该阶段有4项任务:1维护数据库的安全性与完整性 2监测并改善数据库运行性能 3根据用户要求对数据库现有功能进行扩充 4及时改正运行中发现的系统错误。
以上就是关于部署大数据业务七步走全部的内容,包括:部署大数据业务七步走、数据库分布式部署B/S架构的系统怎么实现、数据库开发工具的发展大致经历了哪四个主要阶段等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)