大数据和大数据开发有什么区别

大数据和大数据开发有什么区别,第1张

数据仓库的定义?

首先,用于支持决策,面向分析型数据处理;其次,对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库(Data Warehouse)是一个面向主题的(subject oriented)、集成的(integrated)、相对稳定的(non-volatile)、反应历史变化(time variant)的数据集合,用于支持管理决策(decision making support)。

数据仓库和数据库的区别?

从目标、用途、设计来说

数据库是面向事物处理的,数据是由日常的业务产生的,常更新;数据仓库是面向主题的,数据来源多样,经过一定的规则转换得到,用来分析。数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的历史数据。数据库的设计一般是符合三范式的,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库的设计一般不符合三范式,有利于查询

如何构建数据仓库?

数仓模型的选择是灵活的,不局限于某种模型方法。

数仓数据是灵活的,以实际需求场景为导向。

数仓设计要兼顾灵活性、可扩展性,要考虑技术可靠性和实现成本。

系统分析,确定主题。通过与业务部门的交流,了解建立数仓要解决的问题,确认各个主题下的查询分析要求选择满足数据仓库系统要求的软件平台。选择合适的软件平台,包括数据库、建模工具、分析工具等建立数据仓库的逻辑模型。确定建立数据仓库逻辑模型的基本方法,基于主题视图,把主题视图中的数据定义转到逻辑数据模型中逻辑数据模型转换为数据仓库数据模型数据仓库数据模型优化。随着需求和数据量的变化进行调整数据清洗转换和传输。业务系统中的数据加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。开发数据仓库的分析应用。满足业务部门对数据进行分析的需求。数据仓库的管理。包括数据库管理和元数据管理。

什么是数据中台?

数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台吧数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

这些服务和企业的业务有较强的关联性,是企业所独有且能复用的,它是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争的优势所在。

数据中台通过整合公司开发工具、打通全域数据、让数据持续为业务赋能,实现数据平台化、数据服务化和数据价值化。数据中台更加侧重于“复用”与“业务”。

数据中台、数据仓库、大数据平台的关键区别是什么?

基础能力上的区别

数据平台:提供的是计算和存储能力

数据仓库:利用数据平台提供的计算和存储能力,在一套方法论指导下建设的一整套的数据表

数据中台:包含了数据平台和数据仓库的所有内容,将其打包,并且以更加整合以及更加产品化的方式对外提供服务和价值。

业务能力上的区别

数据平台:为业务提供数据主要方式是提供数据集

数据仓库:相对具体的功能概念是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表

数据中台:企业级的逻辑概念,提现企业数据产生价值的能力,为业务提供服务的主要方式是数据API

总的来说,数据中台距离业务更近,数据复用能力更强,能为业务提供速度更快的服务。数据中台是在数据仓库和数据平台的基础上,将数据生产为一个个数据API服务,以更高效的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

大数据的一些相关系统?

数仓设计中心:按照主题域、业务过程,分层的设计方式,以维度建模作为基本理论依据,按照维度、度量设计模型,确保模型、字段有统一的命名规范

数据资产中心:梳理数据资产,基于数据血缘,数据的访问热度,做成本的治理

数据质量中心:通过丰富的稽查监控系统,对数据进行事后校验,确保问题数据第一时间被发现,避免下游的无效计算,分析数据的影响范围。

指标系统:管理指标的业务口径、计算逻辑和数据来源,通过流程化的方式,建立从指标需求、指标开发、指标发布的全套协作流程。

数据地图:提供元数据的快速索引,数据字典、数据血缘、数据特征信息的查询,相当于元数据中心的门户。

如何建设数据中台?

数据中台在企业落地实践时,结合技术、产品、数据、服务、运营等方面,逐步开展相关工作。

理现状。了解业务现状、数据现状、IT现状、现有的组织架构定架构。确认业务架构、技术架构、应用架构、组织架构建资产。建立贴近数据层、统一数仓层、标签数据层、应用数据层用数据。对数据进行输出、应用。数据运营。持续运营、持续迭代。

中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地是一个漫长的过程,在实施数据中台时,最困难的地方就是需要有人推动。

数据湖的理解?

数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。

数仓最重要的是什么?

个人认为是数据集成。

企业的数据通常是存储在多个异构数据库中的,要进行分析,必须先要对数据进行一致性整合。

集成整合后才可以对数据进行分析、挖掘数据潜在的价值。

概念数据模型、逻辑数据模型、物理数据模型

概念数据模型设计与逻辑数据模型设计、物理数据模型设计是数据库及数据仓库模型设计的三个主要步骤。

概念数据模型CDM

概念数据模型是最终用户对数据存储的看法,反映了最终用户综合性的信息需求,以数据类的方式描述企业级的数据需求。

概念数据模型的内容包括重要的实体与实体之间的关系。在概念数据模型中不包含实体的属性,也不包含定义实体的主键

概念数据模型的目标是统一业务概念,作为业务人员和技术人员之间沟通的桥梁,确定不同实体之间的最高层次的关系

逻辑数据模型LDM

逻辑数据模型反应的是系统分析设计人员对数据存储的观点,是对概念数据模型的进一步的分解和细化。逻辑数据模型是根据业务规则确定的,关于业务对象、业务对象的数据项以及业务对象之间关系的基本蓝图。

逻辑数据模型的内容包括所有的实体和关系,确定每个实体的属性,定义每个实体的主键,指定实体的外键,需要进行范式化处理。

逻辑数据模型的目标是尽可能详细的描述数据,但并不考虑在物理上如何实现。

物理数据模型PDM

物理数据模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。

物理数据模型的内容包括确定所有的表和列,定义外键用于确认表之间的关系,基于用户的需求可能要进行反范式化等内容。

SCD的常用处理方式?

slowly changing dimensions缓慢变化维度

不记录历史变化信息添加列来记录历史变化新插入数据行,并添加对应标识字段来记录历史数据。拉链表。

元数据的理解?

狭义来讲就是用来描述数据的数据

广义来看,除了业务逻辑直接读写处理的业务数据,所有其他用来维护整个系统运转所需要的数据,都可以较为元数据。

定义:元数据metadata是关于数据的数据。在数仓系统中,元数据可以帮助数据仓库管理员和数据仓库开发人员方便的找到他们所关心的数据;元数据是描述数据仓库内部数据的结构和建立方法的数据。按照用途可分为:技术元数据、业务元数据。

技术元数据

存储关于数据仓库技术细节的数据,用于开发和管理数据仓库使用的数据

数据仓库结构的描述,包括数据模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容业务系统、数据仓库和数据集市的体系结构和模式由 *** 作环境到数据仓库环境的映射,包括元数据和他们的内容、数据提取、转换规则和数据刷新规则、权限等。

业务元数据

从业务角度描述了数据仓库中的数据,他提供了介于使用者和实际系统之间的语义层,使不懂计算机技术的业务人员也能读懂数仓中的数据。

企业概念模型:表示企业数据模型的高层信息。整个企业业务概念和相互关系。以这个企业模型为基础,不懂sql的人也能做到心中有数多维数据模型。告诉业务分析人员在数据集市中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。业务概念模型和物理数据之间的依赖。业务视图和实际数仓的表、字段、维的对应关系也应该在元数据知识库中有所体现。

元数据管理系统?

元数据管理往往容易被忽视,但是元数据管理是不可或缺的。一方面元数据为数据需求方提供了完整的数仓使用文档,帮助他们能自主快速的获取数据;另一方面数仓团队可以从日常的数据解释中解脱出来,无论是对后期的迭代更新还是维护,都有很大的好处。元数据管理可以让数据仓库的应用和维护更加的高效。

元数据管理功能

数据地图:以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展示,并通过不同层次的图形展现。元数据分析:血缘分析、影响分析、实体关联分析、实体差异分析、指标一致性分析。辅助应用优化:结合元数据分析功能,可以对数据系统的应用进行优化。辅助安全管理:采用合理的安全管理机制来保障系统的数据安全;对数据系统的数据访问和功能使用进行有效监控。基于元数据的开发管理:通过元数据管理系统规范日常开发的工作流程

元数据管理标准

对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库

对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后通过建立标准的元数据交换格式,实现元数据的集成管理。

数仓如何确定主题域?

主题

主题是在较高层次上将数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对企业中某一宏观分析领域所涉及的分析对象。

面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。

主题是根据分析的要求来确定的。

主题域

从数据角度看(集合论)

主题语通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定由最终用户和数仓设计人员共同完成。

从需要建设的数仓主题看(边界论)

主题域是对某个主题进行分析后确定的主题的边界。

数仓建设过程中,需要对主题进行分析,确定主题所涉及到的表、字段、维度等界限。

确定主题内容

数仓主题定义好以后,数仓中的逻辑模型也就基本成形了,需要在主题的逻辑关系中列出属性和系统相关行为。此阶段需要定义好数据仓库的存储结构,向主题模型中添加所需要的信息和能充分代表主题的属性组。

如何控制数据质量?

校验机制,每天进行数据量的比对 select count(),早发现,早修复

数据内容的比对,抽样比对

复盘、每月做一次全量

如何做数据治理?

数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如数据应该怎么进行规范,元数据该怎么来管理,每个过程需要那些系统或者工具来配合?

数据治理领域包括但不限于以下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据声明周期管理、数据质量、数据安全以及数据共享服务。

模型设计的思路?业务驱动?数据驱动?

构建数据仓库有两种方式:自上而下、自下而上

Bill Inmon推崇自上而下的方式,一个企业建立唯一的数据中心,数据是经过整合、清洗、去掉脏数据、标准的、能够提供统一的视图。要从整个企业的环境入手,建立数据仓库,要做很全面的设计。偏数据驱动

Ralph Kimball推崇自下而上的方式,认为数据仓库应该按照实际的应用需求,架子啊需要的数据,不需要的数据不要加载到数据仓库中。这种方式建设周期短,用户能很快看到结果。偏业务驱动

数据质量管理

数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等,通过改善了提高组织的管理水平使数据质量进一步提高。

数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。放过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题,从而提高企业数据变现的能力。

会遇到的数据质量问题:数据真实性、数据准确性、数据一致性、数据完整性、数据唯一性、数据关联性、数据及时性

什么是数据模型?

数据模型就是数据组织和存储的方法,通过抽象的实体以及实体间联系的形式来表达现实世界中事务的相互关系的一种映射,他强调从业务、数据存取和使用角度合理的存储数据。

为什么需要数据仓库建模?

数仓建模需要按照一定的数据模型,对整个企业的数据进行采集,整理,提供跨部门、完全一致的报表数据。

合适的数据模型,对于大数据处理来讲,可以获得得更好的性能、成本、效率和质量。良好的模型可以帮助我们快速查询数据,减少不必要的数据冗余,提高用户的使用效率。

数据建模进行全方面的业务梳理,改进业务流程,消灭信息孤岛,更好的推进数仓系统的建设。

OLAP和OLTP的模型方法的选择?

OLTP系统是 *** 作事物型系统,主要数据 *** 作是随机读写,主要采用满足3NF的实体关系模型存储数据,在事物处理中解决数据的冗余和一致性问题。

OLAP系统是分析型系统,主要数据 *** 作是批量读写,不需要关注事务处理的一致性,主要关注数据的整合,以及复杂大数据量的查询和处理的性能。

3范式

每个属性值唯一,不具有多义性

每个非主属性必须完全依赖于整个主键,而非主键的一部分

每个非主属性不能依赖于其他关系中的属性

数据仓库建模方法?

有四种模型:ER模型、维度模型、Data Vault模型、Anchor模型。用的较多的是维度模型和ER模型。

ER模型

ER模型用实体关系模型描述企业业务,在范式理论上满足3NF。数仓中的3NF是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。

采用ER模型建设数据仓库模型的出发点是整合数据,将各个系统中的数据按照主题进行相似性整合,并进行一致性处理。

ER模型特点:

需要全方位了解企业业务数据

实施周期较长

对建模人员要求教高

维度建模

维度建模按照事实表和维度表来构建数仓。

维度建模从分析决策的需求出发构建模型,为分析需求服务。重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务问题,需要大量的数据预处理、数据冗余,有较好的大规模复杂查询的响应性能。

事实表

发生在现实世界中的 *** 作性事件,其产生的可度量数值,存储在事实表中。从最细粒度级别来看,事实表的一行对应一个度量事件。事实表表示对分析主题的度量。

事实表中包含了与各个维度表相关联的外键,可与维度表关联。事实表的度量通常是数值类型,且记录数不断增加,表数据量迅速增长。

维度表

维度表示分析数据时所用的环境。

每个维度表都包含单独的主键列。维度表行的描述环境应该与事实表行完全对应。维度表通常比较宽,是扁平型的非规范表,包含大量的低粒度的文本属性。

注意:

事实表的设计是以能够正确记录历史信息为准则

维度表的设计是以能够以合适的角度来聚合主题内容为准则

维度建模的三种模式

星形模型:以事实表为中心,所有的维度直接连接在事实表上。由一个事实表和一组维度表组成。

雪花模型:是对星形模型的扩展。雪花模型的维度表可以拥有更细的维度,比星形更规范一点。维护成本较高,且查询是要关联多层维表,性能较低

星座模型:基于多张事实表,多张事实表共享维度信息

维度建模步骤:

选择业务过程

选择粒度

选定事实表

选择维度

事实表的类型?

事实表有:事务事实表、周期快照事实表、累积快照事实表、非事实事实表

事务事实表

事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务记录一条记录。

周期快照事实表

以具有规律性的、可预见的时间间隔来记录事实。它统计的是间隔周期内的度量统计,每个时间段一条记录,是在事务事实表之上建立的聚集表。

累积快照事实表

累积快照表记录的不确定的周期的数据。代表的是完全覆盖一个事务或产品的生命周期的时间跨度,通常具有多个日期字段,用来记录整个生命周期中的关键时间点。

非事实型事实表

在维度建模的数据仓库中,有一种事实表叫Factless Fact Table,中文一般翻译为“非事实型事实表”。在事实表中,通常会保存十个左右的维度外键和多个度量事实,度量事实是事实表的关键所在。在非事实型事实表中没有这些度量事实,只有多个维度外键。非事实型事实表通常用来跟踪一些事件或者说明某些活动的范围。下面举例来进行说明。

第一类非事实型事实表是用来跟踪事件的事实表。例如:学生注册事件,学校需要对学生按学期进行跟踪。维度表包括学期维度、课程维度、系维度、学生维度、注册专业维度和取得学分维度,而事实表是由这些维度的主键组成,事实只有注册数,并且恒为1。这样的事实表可以回答大量关于大学开课注册方面的问题,主要是回答各种情况下的注册数。

第二类非事实型事实表是用来说明某些活动范围的事实表。例如:促销范围事实表。通常销售事实表可以回答如促销商品的销售情况,但是对于那些没有销售出去的促销商品没法回答。这时,通过建立促销范围事实表,将商场需要促销的商品单独建立事实表保存。然后,通过这个促销范围事实表和销售事实表即可得出哪些促销商品没有销售出去。这样的促销范围事实表只是用来说明促销活动的范围,其中没有任何事实度量。

事实表中通常要保留度量事实和多个维度外键,度量事实是事实表的关键所在。

非事实表中没有这些度量事实,只有多个维度外键。非事实型事实表通常用来跟踪一些事件或说明某些活动的范围。

第一类非事实型事实表是用来跟踪事件的事实表。例如:学生注册事件。

第二类非事实型事实表是用来说明某些活动范围的事实表。例如:促销范围事实表。

数仓架构为什么要分层

分层可以清晰数据结构,使用时更好的定位和理解方便追踪数据的血缘关系规范数据分层,可以开发一些通用的中间层数据,能够减少极大的重复计算把复杂问题简单化屏蔽原始数据的异常。不必改一次业务就重新接入数据

数据分层思想?

理论上数据分为: *** 作数据层、数据仓库层、数据服务层。可根据需要添加新的层次,满足不同的业务需求。

*** 作数据层ODS

Operate Data Store *** 作数据存储。数据源中的数据经过ETL后装入ODS层。

ODS层数据的来源一般有:业务数据库、日志、抓取等。

数据仓库层DW

根据ODS层中的数据按照主题建立各种数据模型。

DW通常有:DWD、DWB、DWS

DWD: data warehouse detail细节数据层,是业务层和数据仓库的隔离层。

DWB: data warehouse base基础数据层,存储的是客观数据,一般用作于中间层。

DWS: data warehouse service服务数据层,整合汇总分析某个主题域的服务数据。一般是大宽表。

数据服务层/应用层ADS

该层主要提供数据产品和数据分析使用的数据,一般会放在ES、Mysql系统中供线上系统使用

数仓架构进化

经典数仓架构:使用传统工具来建设数仓

离线大数据架构:开始使用大数据工具来替代经典数仓中的传统工具

Lambda架构:在离线大数据架构的基础上,使用流处理技术直接完成实时性较高的指标计算

Kappa:实时处理变成了主要的部分,出现了以实时处理为核心的kappa架构

离线大数据架构

数据源通过离线的方式导入离线数仓中。下游应用根据业务需求选择获取数据的方式

Lambda架构

在离线数仓的基础上增加了实时计算的链路,并对数据源进行流式改造,实时计算去订阅消息队列,并推送到下游的数据服务中去。

Lambda架构问题:同样的需求需要开发两套一样的代码;资源占用增多

Kappa架构

kappa架构可以认为是lambda架构的简化版,移除了lambda架构中的批处理部分。

在kappa架构中,需求修改或者历史数据重新处理都通过上游重放完成

kappa架构最大的问题是流式重新处理历史数据的吞吐能力会低于批处理,但可以通过增加计算资源来弥补

总结

真实场景中,是lambda架构和kappa架构的混合。大部分实时指标通过kappa架构计算,少量关键指标用lambda架构批量计算

随着数据多样性的发展,数据库这种提前规定schema的模式显得力不从心。这时出现了数据湖技术,把原始数据全部缓存到某个大数据存储上,后续分析时根据需求去解析原始数据。简单来说,数据仓库模式是schema on write,数据湖模式是schema on read

OLAP简介

OLAP(On-line Analytical Processing),联机分析处理,其主要的功能在于方便大规模数据分析及统计计算,对决策提供参考和支持。

特点:数据量大、高速响应、灵活交互、多维分析

OLAP分类

存储类型分类

ROLAP(RelationalOLAP)

MOLAP(MultimensionalOLAP)

HOLAP(HybridOLAP)

处理类型分类

MPP架构

搜索引擎架构

预处理架构

开源OLAP解决方案

Persto、SparkSQL、Impala等MPP架构和ROLAP的引擎Druid和Kylin等预处理架构和MOLAP的引擎ES这种搜索引擎架构ClickHouse及IndexR这种列式数据库

OLAP引擎

Presto

Facebook开发的分布式大数据SQL查询引擎,专门进行快速数据分析

特点

可以将多个数据源的数据进行合并,可以跨越整个组织进行分析直接从HDFS读取数据,在使用前不需要大量的ETL *** 作

查询原理

完全基于内存的并行计算

流水线

本地化计算

动态编译执行计划

小心使用内存和数据结构

类BlinkDB的近似查询

GC控制

Druid

Druid是一个用于实时查询和分析的分布式实时处理系统,主要用于广告分析,互联网广告监控、度量和网络监控

特点

快速的交互式查询——Druid的低延迟数据摄取架构允许事件在它们创建后毫秒内可被查询到。高可用性——Druid的数据在系统更新时依然可用,规模的扩大和缩小都不会造成数据丢失;可扩展——Druid已实现每天能够处理数十亿事件和TB级数据。为分析而设计——Druid是为OLAP工作流的探索性分析而构建,它支持各种过滤、聚合和查询

应用场景

需要实时查询分析具有大量数据时,如每天数亿事件的新增、每天数10T数据的增加;需要一个高可用、高容错、高性能数据库时。需要交互式聚合和快速探究大量数据时

Kylin

Kylin是提供与Hadoop之上的SQL查询接口及多维分析能力以支持超大规模数据

数据仓库系统的三个工具层数据仓库系统通常采用3层的体系结构,底层为数据仓库服务器,中间层为OLAP服务器,顶层为前端工具。具体如下:

1、数据源和数据的存储与管理部分可以统称为数据仓库服务器。

(1)数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息,等等。

(2)数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

2、OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

3、前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具,以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

该系统是针对"国家开发银行基础数据库系统招标书"的具体要求,结合我公司在数据库和数据仓库方面的开发经验、系统集成能力与技术优势,组织该方面专家进行多次讨论,并充分考虑国家开发银行实际情况和我们在金融行业数据仓库的建设经验,最终构建国家开发银行基础数据库系统。在该系统中,我们采用最先进和完善的IBM数据仓库系列产品,结合具有丰富表现力的COGNOS公司前端展现工具,集成三层体系结构(Multi-tier)技术,融合WEB方式,最终为开发银行开发建设一个技术上先进、业务应用成熟、功能完善、性能稳定的基础数据库系统,并在此基础上考虑到系统的未来扩展。

系统简介

国家开发银行基础数据库系统的总体架构包括数据管理层、应用控制层和用户界面层三个部分。数据管理层负责管理国家开发银行各个层次的数据;应用控制层负责处理基于基础数据库系统的应用系统业务控制逻辑;用户界面层处理用户人机交互接口,将用户接口与复杂的业务控制逻辑分开,负责将业务信息以一种用户友好的一致方式提供给用户。

1、数据管理层

国家开发银行基础数据库系统中,需要管理不同层次的数据:

实时易变的数据:

由国家开发银行日常业务的 *** 作型应用系统创建和管理。

高质量的一致性数据:

通过对存放在国家开发银行不同业务应用系统中的数据进行基本的代码转换和不一致问题的处理,得到国家开发银行统一业务视图的综合数据。

派生数据:

是在一致性数据基础上不同程度的聚集产生的数据。

元数据:

元数据是关于以上几类数据的描述性数据,是国家开发银行企业级的信息目录。元数据描述和定位数据元素的来龙去脉:数据来自何处,如何转换,抽取频率怎样,去哪儿,数据仓库正是通过对元数据的有效管理,为数据工作者寻找、理解和利用上述几类数据提供方便。

数据管理层采用DB-ODS-DW三层体系结构来管理以上各类数据。其中DB指实时易变的数据和外部数据,ODS(Operational Data Store, *** 作数据储存)包括高质量的一致性数据和派生数据,DW(Data Warehouse,数据仓库)包含历史的高质量一致性数据和派生数据。

ODS作为一个中间层次,一方面,它包含企业全局一致的、细节的数据,可以进行全局 *** 作型处理;另一方面,它又是一种面向主题的、集成的数据环境,适合完成日常报表和决策的数据处理分析。可见,ODS一方面支持业务性 *** 作,另一方面面向主题。所谓主题是指国家开发银行业务发展中所关注的业务对象,比如项目开发、信贷管理和资金管理,是在较高层次上将数据归类,将来自各部门的原始数据做一个从面向应用到面向主题的转变,即整个系统的设计将按照业务对象进行,而不是按照行政框架设计。在主题之下放置与该主题相关的各种基础数据,组合在一起就是基础数据源。基础数据源是整个ODS的核心,存储着最为基础的非派生数据。从上面分析可看出,建设数据仓库的第一步是建设基础数据源。这就要求对国家开发银行相关部门的业务流程和需求进行分析,通过对来自会计信息系统的数据和外部录入数据进行清洗、抽取和转换来解决数据的不一致性、分散性、完整性及异构问题。

面向主题和集成性使得ODS的数据在静态特征上很接近DW中的数据。但是,在ODS与DW之间仍然有许多基本的、重要的差别。首先,ODS主要保存近期数据,而DW大量是长期保存并可重复查询的历史数据。其二,ODS支持面向记录的联机刷新,满足国家开发银行全局应用的需要,包括企业级的OLTP;而DW中的基础数据是不可修改的。其三是向ODS数据仓库DW提供一致的数据环境以供抽取。DW则主要用于长期趋势分析或战略决策。

1)数据源

国家开发银行业务系统数据

国家开发银行的业务处理系统包括已经投入运行的(会计核算系统)、正在建设的(信贷管理和非现场稽核)和准备建设的各个业务处理系统。这些系统的数据周期性地形成增量文件,由数据库抽取代理程序(Agent)抽取到总行 *** 作数据库中(ODS)。

外部数据

外部数据,根据业务需求可以加载到总行 *** 作数据库中(ODS),也可以直接加载到数据仓库中。

补充数据

补充数据,由手工输入或接收程序倒入。

2)基础数据收集

为了提高基础数据收集的效率和质量,需要综合考虑业务需求、数据量、数据加载周期和技术基础设施多种因素,制定切实可行的数据抽取、净化、转换和加载策略,并选择合适的工具辅助基础数据收集。

对于国家开发银行现有业务应用系统管理的数据,应尽力区分存量数据、增量数据和变更的数据(比如,可以通过增加触发器来得到变更的数据),因为在广域网环境下,存量数据的抽取、传输和加载,增加网络的压力,是不可取的。而且不管选择哪种数据库,数据库管理系统的大量数据加载速度有限,大量数据加载一般会影响其他用户对数据库的 *** 作。

在网络带宽许可的情况下,总行的ODS收集存储各分行详细的业务数据,各分行的详细业务数据通过数据收集代理(Agent)自动抽取到总行。数据抽取、传输和加载的策略是,第一次数据初始化的时候,进行存量数据的批量加载,以后则进行增量数据和变更数据的加载。加载周期是按小时、天、月或季度和年来加载,取决于业务需求。

随着业务的发展,详细业务数据量的增大,超出网络带宽的负荷,建议各分行设置ODS收集存储各自详细的业务数据,总行ODS收集存储各分行经过聚集的业务数据,以减少抽取、传输和加载的数据量。

可视化数据仓库管理器(IBM Visual Warehouse)是IBM公司推出的一个创建和维护数据仓库的集成工具,可以定义、创建、管理、监控和维护数据仓库,也可以自动地把异质数据源抽取到中央集成的数据仓库管理环境中来,它采用分布式的客户/服务器(Client/Server)体系结构,包括如下几个部分:

数据仓库服务器(Visual Warehouse Server)

数据仓库管理员(Visual Warehouse Administrative Clients)

数据仓库代理(Visual Warehouse Agents)

控制数据库(Control Database)

数据仓库(目标数据库,Target Database)

数据仓库服务器运行于Windows NT *** 作系统之上,监控和管理数据仓库的处理过程,提供基于时间的和基于事件的调度机制,并且也控制数据仓库代理的活动。

数据仓库代理在数据仓库服务器的控制下,处理源数据的存取、过滤、传输和把数据加载到目标数据仓库中。数据仓库代理可以运行在NT、AIX、OS/400、OS/2、SUN不同的系统平台上。为了提高处理效率和可扩展性,一般在数据源和目标数据仓库所在的机器都安装数据仓库代理。

控制数据库由数据仓库管理员产生并被数据仓库代理所利用。可视化数据仓库管理器把所有的元数据都存储在控制数据库中,控制数据库还可以被一个元数据管理工具集成管理(该工具称为Dataguide,是可视化数据仓库管理器的组件之一)。

虽然数据抽取、传输和加载自动化的机制可以选择合适的工具来实现,但针对实际数据环境的数据抽取、转换和净化需要自行设计程序,因为实际数据的非标准化和数据转换的复杂性,数据抽取、转换和净化的商品化工具在实际应用中达不到预期效果。

2、总行ODS

总行ODS由两层数据组成,一层为基础数据源,是国家开发银行业务产生的最基础的非派生的数据;另一层为二次汇总数据。二次汇总数据放置于项目受理、贷款管理和资金管理三个模块中,直接为项目受理、贷款管理和资金管理三个业务子系统提供数据支持。基础数据源中的数据主要从会计信息系统中转换而来,同时又有一部分基础数据来自于外部数据录入。

以上就是关于大数据和大数据开发有什么区别全部的内容,包括:大数据和大数据开发有什么区别、数据仓库系统有哪三个工具层、汇丰银行、花旗银行、工商银行、中国银行、建设银行、招商银行等各大银行所用的数据库系统等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9424222.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存