该系统是针对"国家开发银行基础数据库系统招标书"的具体要求,结合我公司在数据库和数据仓库方面的开发经验、系统集成能力与技术优势,组织该方面专家进行多次讨论,并充分考虑国家开发银行实际情况和我们在金融行业数据仓库的建设经验,最终构建国家开发银行基础数据库系统。在该系统中,我们采用最先进和完善的IBM数据仓库系列产品,结合具有丰富表现力的COGNOS公司前端展现工具,集成三层体系结构(Multi-tier)技术,融合WEB方式,最终为开发银行开发建设一个技术上先进、业务应用成熟、功能完善、性能稳定的基础数据库系统,并在此基础上考虑到系统的未来扩展。
系统简介
国家开发银行基础数据库系统的总体架构包括数据管理层、应用控制层和用户界面层三个部分。数据管理层负责管理国家开发银行各个层次的数据;应用控制层负责处理基于基础数据库系统的应用系统业务控制逻辑;用户界面层处理用户人机交互接口,将用户接口与复杂的业务控制逻辑分开,负责将业务信息以一种用户友好的一致方式提供给用户。
1、数据管理层
国家开发银行基础数据库系统中,需要管理不同层次的数据:
实时易变的数据:
由国家开发银行日常业务的 *** 作型应用系统创建和管理。
高质量的一致性数据:
通过对存放在国家开发银行不同业务应用系统中的数据进行基本的代码转换和不一致问题的处理,得到国家开发银行统一业务视图的综合数据。
派生数据:
是在一致性数据基础上不同程度的聚集产生的数据。
元数据:
元数据是关于以上几类数据的描述性数据,是国家开发银行企业级的信息目录。元数据描述和定位数据元素的来龙去脉:数据来自何处,如何转换,抽取频率怎样,去哪儿,数据仓库正是通过对元数据的有效管理,为数据工作者寻找、理解和利用上述几类数据提供方便。
数据管理层采用DB-ODS-DW三层体系结构来管理以上各类数据。其中DB指实时易变的数据和外部数据,ODS(Operational Data Store, *** 作数据储存)包括高质量的一致性数据和派生数据,DW(Data Warehouse,数据仓库)包含历史的高质量一致性数据和派生数据。
ODS作为一个中间层次,一方面,它包含企业全局一致的、细节的数据,可以进行全局 *** 作型处理;另一方面,它又是一种面向主题的、集成的数据环境,适合完成日常报表和决策的数据处理分析。可见,ODS一方面支持业务性 *** 作,另一方面面向主题。所谓主题是指国家开发银行业务发展中所关注的业务对象,比如项目开发、信贷管理和资金管理,是在较高层次上将数据归类,将来自各部门的原始数据做一个从面向应用到面向主题的转变,即整个系统的设计将按照业务对象进行,而不是按照行政框架设计。在主题之下放置与该主题相关的各种基础数据,组合在一起就是基础数据源。基础数据源是整个ODS的核心,存储着最为基础的非派生数据。从上面分析可看出,建设数据仓库的第一步是建设基础数据源。这就要求对国家开发银行相关部门的业务流程和需求进行分析,通过对来自会计信息系统的数据和外部录入数据进行清洗、抽取和转换来解决数据的不一致性、分散性、完整性及异构问题。
面向主题和集成性使得ODS的数据在静态特征上很接近DW中的数据。但是,在ODS与DW之间仍然有许多基本的、重要的差别。首先,ODS主要保存近期数据,而DW大量是长期保存并可重复查询的历史数据。其二,ODS支持面向记录的联机刷新,满足国家开发银行全局应用的需要,包括企业级的OLTP;而DW中的基础数据是不可修改的。其三是向ODS数据仓库DW提供一致的数据环境以供抽取。DW则主要用于长期趋势分析或战略决策。
1)数据源
国家开发银行业务系统数据
国家开发银行的业务处理系统包括已经投入运行的(会计核算系统)、正在建设的(信贷管理和非现场稽核)和准备建设的各个业务处理系统。这些系统的数据周期性地形成增量文件,由数据库抽取代理程序(Agent)抽取到总行 *** 作数据库中(ODS)。
外部数据
外部数据,根据业务需求可以加载到总行 *** 作数据库中(ODS),也可以直接加载到数据仓库中。
补充数据
补充数据,由手工输入或接收程序倒入。
2)基础数据收集
为了提高基础数据收集的效率和质量,需要综合考虑业务需求、数据量、数据加载周期和技术基础设施多种因素,制定切实可行的数据抽取、净化、转换和加载策略,并选择合适的工具辅助基础数据收集。
对于国家开发银行现有业务应用系统管理的数据,应尽力区分存量数据、增量数据和变更的数据(比如,可以通过增加触发器来得到变更的数据),因为在广域网环境下,存量数据的抽取、传输和加载,增加网络的压力,是不可取的。而且不管选择哪种数据库,数据库管理系统的大量数据加载速度有限,大量数据加载一般会影响其他用户对数据库的 *** 作。
在网络带宽许可的情况下,总行的ODS收集存储各分行详细的业务数据,各分行的详细业务数据通过数据收集代理(Agent)自动抽取到总行。数据抽取、传输和加载的策略是,第一次数据初始化的时候,进行存量数据的批量加载,以后则进行增量数据和变更数据的加载。加载周期是按小时、天、月或季度和年来加载,取决于业务需求。
随着业务的发展,详细业务数据量的增大,超出网络带宽的负荷,建议各分行设置ODS收集存储各自详细的业务数据,总行ODS收集存储各分行经过聚集的业务数据,以减少抽取、传输和加载的数据量。
可视化数据仓库管理器(IBM Visual Warehouse)是IBM公司推出的一个创建和维护数据仓库的集成工具,可以定义、创建、管理、监控和维护数据仓库,也可以自动地把异质数据源抽取到中央集成的数据仓库管理环境中来,它采用分布式的客户/服务器(Client/Server)体系结构,包括如下几个部分:
数据仓库服务器(Visual Warehouse Server)
数据仓库管理员(Visual Warehouse Administrative Clients)
数据仓库代理(Visual Warehouse Agents)
控制数据库(Control Database)
数据仓库(目标数据库,Target Database)
数据仓库服务器运行于Windows NT *** 作系统之上,监控和管理数据仓库的处理过程,提供基于时间的和基于事件的调度机制,并且也控制数据仓库代理的活动。
数据仓库代理在数据仓库服务器的控制下,处理源数据的存取、过滤、传输和把数据加载到目标数据仓库中。数据仓库代理可以运行在NT、AIX、OS/400、OS/2、SUN不同的系统平台上。为了提高处理效率和可扩展性,一般在数据源和目标数据仓库所在的机器都安装数据仓库代理。
控制数据库由数据仓库管理员产生并被数据仓库代理所利用。可视化数据仓库管理器把所有的元数据都存储在控制数据库中,控制数据库还可以被一个元数据管理工具集成管理(该工具称为Dataguide,是可视化数据仓库管理器的组件之一)。
虽然数据抽取、传输和加载自动化的机制可以选择合适的工具来实现,但针对实际数据环境的数据抽取、转换和净化需要自行设计程序,因为实际数据的非标准化和数据转换的复杂性,数据抽取、转换和净化的商品化工具在实际应用中达不到预期效果。
2、总行ODS
总行ODS由两层数据组成,一层为基础数据源,是国家开发银行业务产生的最基础的非派生的数据;另一层为二次汇总数据。二次汇总数据放置于项目受理、贷款管理和资金管理三个模块中,直接为项目受理、贷款管理和资金管理三个业务子系统提供数据支持。基础数据源中的数据主要从会计信息系统中转换而来,同时又有一部分基础数据来自于外部数据录入。
全局最佳:Optimal Dataset Scale, ODS, 指数据库中使用同一阈值时的最佳结果。
单图最佳:Optimal Image Scale, OIS, 指对每一幅图使用对应最佳阈值的结果。
Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它是一整套包括了etl、调度、建模在内的完整的理论体系。数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析 *** 作,侧重决策支持,听且提供直观易懂的查询结果。比较流行的有:AWS Redshift,Greenplum,Hive等。
12主要特点
面向主题:
*** 作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个 *** 作型信息系统相关。
集成
需要对源数据进行加工与融合,统一与综合
在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。(关联关系)
不可修改
DW中的数据并不是最新的,而是来源于其他数据源
数据仓库主要是为决策分析提供数据,涉及的 *** 作主要是数据的查询
与时间相关
处于决策的需要数据仓库中的数据都需要标明时间属性
13与数据库的对比
DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势
数据库:用于捕获和存储数据
特性 数据仓库 事务数据库
适合的工作负载 分析、报告、大数据 事务处理
数据源 从多个来源收集和标准化的数据 从单个来源(例如事务系统)捕获的数据
数据捕获 批量写入 *** 作通过按照预定的批处理计划执行 针对连续写入 *** 作进行了优化,因为新数据能够最大程度地提高事务吞吐量
数据标准化 非标准化schema,例如星型Schema或雪花型schema 高度标准化的静态schema
数据存储 使用列式存储进行了优化,可实现轻松访问和高速查询性能 针对在单行型物理块中执行高吞吐量写入 *** 作进行了优化
数据访问 为最小化I/O并最大化数据吞吐量进行了优化 大量小型读取 *** 作
2数据分层
数据分层,每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上数据分为三个层:数据运营层、数据仓库层、数据服务层。基于这个基础分层之上,再提交信息的层次,来满足不同的业务需求。
21数据运营层(ODS)
ODS:Operation Data Store 数据准备区,也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层,是后续数据仓库加工数据的来源。
ODS层数据的来源方式:
业务库
经常会使用sqoop来抽取,例如每天定时抽取一次。
实时方面,可以考虑用canal监听mysql的binlog,实时接入即可。
埋点日志
日志一般以文件的形式保存,可以选择用flume定时同步
可以用spark streaming或者Flink来实时接入
kafka也OK
消息队列:即来自ActiveMQ、Kafka的数据等。
22数据仓库层(DW)
DW数据分层,由下到上为DWD,DWB,DWS。
DWD:data warehouse details 细节数据层,是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的 *** 作。
数据清洗:去除空值、脏数据、超过极限范围的
DWB:data warehouse base 数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
DWS:data warehouse service 数据服务层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,OLAP分析,数据分发等。
用户行为,轻度聚合
主要对ODS/DWD层数据做一些轻度的汇总。
23数据服务层/应用层(ADS)
ADS:applicationData Service应用数据服务,该层主要是提供数据产品和数据分析使用的数据,一般会存储在ES、mysql等系统中供线上系统使用。
我们通过说的报表数据,或者说那种大宽表,一般就放在这里
以上就是关于汇丰银行、花旗银行、工商银行、中国银行、建设银行、招商银行等各大银行所用的数据库系统全部的内容,包括:汇丰银行、花旗银行、工商银行、中国银行、建设银行、招商银行等各大银行所用的数据库系统、在图像分割客观评价标准里有个ODS和OIS,请问它们分别代表什么意思,请用简洁易懂的语言描述一下、文件管理里面的dwd是什么意思可以删除吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)