转载本文需注明出处:微信公众号EAWorld,违者必究。
01
数据中心发展的趋势
信息技术应用创新发展是目前的一项国家战略,也是当今形势下国家经济发展的新动能。发展信创是为了近年来保障核心技术自主可控解决安全的本质问题,目前,国家在全国范围内各省、自治区、直辖市均建有大型或超大型数据中心。数据中心虽然用电量占全社会用电量的比例接近1%,却拉动了36.2%的国内生产总值,数据中心建设成为经济发展的新支点。
数据中心的建设是需要通过数据交换将各个地方的数据信息收集起来,解决数据的互通问题。这里面数据中心的核心任务是要将互相关联的分布式异构数据源集成到一起。使用户能够以透明的方式访问这些数据源达到数据共享的目的。
02
数据中心与数据交换
随着社会的发展科技的进步,近些年来政府和企业部门都已经建立起自己的业务系统,并在日常业务处理中发挥着重要的作用。由于受各种条件的限制,在建设初期各部门独立建设自己的系统,导致信息孤岛现象大量存在,严重制约了数字化业务的进一步发展。当今社会已经进入了数据驱动创新的发展阶段,而大数据中心是支撑数字经济发展的关键,在数据经济时代,计算力已经与水、电一样成为最基本的社会基础设施之一,而大数据中心是集中存放计算、存储以及网络设备的场所,是承载计算力的关键基础设施。
数据中心的建设离不开数据,数据交换平台是数据中心与上下级部门或单位之间获取数据的交换机。数据交换平台是把不同来源、不同物理存储中的数据经过抽取、转换、清洗并将数据存储到不同的目标数据源的数据处理过程。数据交换中主要包含了三类数据的交换包括文件交换、接口交换、ETL交换。根据交换业务的不同采用不同的方式进行交换。
文件交换这里指的是二进制形式的文件比如图片、电影、压缩文件等数据类型,通常是以文件方式进行的存储。这种类型的数据通常适合采用文件交换,文件交换一般是不会解析文件的内容,采用拷贝的方式将文件复制到目标存储中进行数据交换。
接口交换一般情况是数据来源是以http、webservice、restful形式发布的数据,这种类型的数据需要有请求对数据进行访问从而获取到数据,这种数据进行交换如果目标也是接口,则采用ESB总线的方式将来源接口和目标接口进行匹配交换。如果这种类型的数据进行数据交换的目标是其他类型的数据形式,比如:可以通过访问来源接口的数据通过数据转换存储成文件数据,也可以存储到数据库中。这种情况下可采用ETL的方式进行交换。
ETL交换能够将大部分结构化存储的数据进行抽取,包括数据库、excel、txt、xml等结构化存储可解析的数据,ETL交换时是将数据源中的数据以行为单位,列为组成单元的形式解析出来,提供多种过滤清洗的组件对抽取出来的数据进行清洗转换,最终将数据存放到目标存储中。
这些看似简单的过程,其实在真正实施数据中心建设的时候有很多工作要做。下面以数据中心建设为例进行讲解。
03
数据交换组织建设
在进行数据中心建设前需要考虑保障数据接入和数据交换工作的顺利推进会先进行数据交换规范的制定。数据交换规范,明确数据交换平台管理流程、各环节任务、参与者的职责以及各环节的输入、输出和产出物。
数据交换规范涵盖数据服务定义、实现、上线、运行、变更和退役的过程,数据交换管理规范从这六个阶段进行管理每个阶段的主要工作内容、参与角色及其工作职责,以及需要遵循的规范和原则,进而保障数据交换管理活动都在规范的管理下受控。为了落实规范的执行由上级单位牵头,下级单位和相关厂商配合进行组织建设,成立数据交换的管理层形成数据交换管理组。主要负责数据交换规范的制定和对执行情况的监督; *** 作层由数据交换平台的数据管理员、开发人员、运维人员和外围系统相关人员组成,主要负责交换平台相关的技术 *** 作工作。
数据交换管理组是数据交换规范的制定者、监督者,主要负责数据交换规范的制定、对数据交换执行过程进行管理和监控。推动数据交换管理活动,确保管理体系和系统工具的执行,定期了解数据交换作业的运行情况,评估数据交换和服务管理的绩效,保证数据交换管理最终实现业务目标。
数据管理员是企业数据资源的管理人员,主要负责数据资源的注册和维护,相关权限的审批,及相关评审工作。
开发人员负责数据资源交换任务的开发工作。
运维人员主要负责数据交换平台的安装部署以及日常的平台运行状态的监控,保证平台稳定运行。
其他相关人员包括数据交换的各参与方人员,主要包括数据提供者和数据消费者,相关业务应用开发和管理人员。
建设管理工作涉及不同人和角色之间的管理和相互配合,这需要在许多不同的利益相关者之间达成共识。因此在数据交换平台建设中成立专业化的项目管理组织是一项重要工作。
数据交换管理可以有效地保证项目管理组织目标的实现,有效地应付项目环境的变化,满足项目组织成员的各种需求,使其具有凝聚力、组织力和向心力,以保证项目组织系统正常运转,确保数据交换平台建设工作顺利完成。组织成立后需要进行相关管理规范和技术规范的制定,可根据自身企业的实际情况来制定这里就不展开讨论。
04
数据交换在数据中心建设
数据交换平台是数据中心与其它应用系统沟通的桥梁,是进行数据交换的枢纽站。数据交换平台负责从各个业务系统采集数据,对数据进行清洗与整合,按照数据中心建设标准规范化原始数据,最终形成各种主题库。
数据中心建设包括这几个步骤:
1、数据源:数据的来源,一般是由不同部门的各类来源数据,包括文件、数据库、Http服务等
2、数据汇聚:存放的是接入的原始数据。经过ETL之后装入本层,大多是按照源头业务系统的分类方式而分类的。为了考虑后续可能追溯数据为题,因此对这一层不建议做过多的数据清洗工作,原封不动接入源数据即可,至于数据的去噪,去重,异常值处理等过程可以放在后面的DW层
3、数据处理:是对汇聚的原始数据进行初步的ETL处理,实现对数据的清洗、加工,补全各类信息(包括编码字典解释等),这个步骤的目的是实现数据的规范化,这里的数据也是落地存储物理库,作为抽取中间库DWD层
4、数据融合:是对规范化的原始数据进行融合处理,建立数据之间的关系模型。数据融合主要是按照主题或业务领域进行数据建模。
5、数据集市:是对领域模型数据进行汇总统计分析,将统计分析的结果进行存储,可以理解为报表决策数据所使用的统计表,结合大数据分析将分析结果在集市层存储,为上层应用提供统计数据。
05
数据交换平台建设架构
数据中心离不开数据,数据中心的数据是将各个分部门中的数据通过数据交换到数据中心的,在分部门和数据中心进行数据交换时会建设数据交换的前置区进行数据隔离保障数据的安全。前置交换节点通过数据文件的方式和数据中心交换数据。前置机位于广域网,通过Internet和交换中心相连。在和数据中心交换时只交换数据中心所需要的数据并不会将所有的业务数据都交换到数据中心。前置节点中会部署一套前置交换系统用于将业务系统中的数据交换到前置区中,数据中心会定期从前置区的固定目录中获取数据中心所需要的数据进行数据交换,交换采用安全加密的协议保障数据的安全。在数据交换到数据中心时会先进行数据质量检核确保数据是符合规范的,如果检核通过则由数据中心中的数据交换系统将数据存入中心库,如果没有通过检核则会通知相关部门进行数据修正,解决数据问题后在进行数据交换。
数据同步到数据中心后就由数据中心的数据交换系统进行数据汇聚、数据处理、数据融合和数据集市的 *** 作。以前的数据中心建设只是将数据集中管理起来进行了一些基本的数据统计和分析,没有充分的发挥数据的价值。使得数据中心的建设又变成了一个新的数据孤岛。随着近些年来数据开放共享的呼声越来越高,数据共享成为了数据中心建设的一个重要组成。
数据共享能够以多种方式提供数据,用户可根据自己的需要在数据交换平台上进行数据的申请或订阅获取到想要的数据,数据管理方也能够通过数据交换平台对数据共享进行开放和管理。通过数据共享能够将数据进行融合形成许多建立在数据共享开放之上的应用如雨后春笋一般迅速实现。
06
数据交换功能
数据交换平台的是实现数据中心建设重要的组成,数据交换平台的功能主要有以下几部分组成:
资源目录管理:基于资源目录管理规范,采用分级、分域的方式对需要交换的数据元数据进行管理,向数据交换开发人员、数据管理人员以目录的形式提供元数据的展示。数据服务目录管理主要功能包含:元数据管理、分类管理、目录编目、目录管理和目录服务。
服务接口管理:数据交换平台中提供了服务接口管理功能,通过分层的方法进行可视化的服务管理,像服务 *** 作注释,服务 *** 作参数,服务 *** 作返回值等都提供相应的用户界面。服务接口管理主要功能包含:接口注册、接口管理、接口构建、服务监控、调用关系管理和服务接口统计。
数据交换管理:支持服务接口开发、etl数据抽取以及文件传输数据交换的开发、运行和管理,主要功能包含:交换桥接、前置交换、数据处理、文件传输和数据统计。
系统支撑功能:支持按照分类、主题、应用等多个层次对数据进行分类管理、识别、定位和共享,开发完成的数据服务消费方可以平台中浏览查看,如果消费方需要使用数据服务能够在平台中发起申请,审批通过后根据平台中提供的服务信息使用数据。主要功能包含:主题管理、信息订阅、数据审批和申请记录。
系统管理与监控:支持按照角色、菜单划分系统功能权限,能够监控服务接口、etl数据抽取以及文件传输交换的运行进行统计和监控。主要功能包含组织管理、用户管理、角色管理、安全管理和平台监控。
6.1资源目录
资源目录体系与交换体系两者密不可分。事实上,资源目录的构建过程是对信息资源进行编目和分类的一体化过程,同时也是依托技术构建信息资源管理体系的过程。建成目录体系和交换体系的同时,将形成内部信息资源的管理架构。资源目录是数据交换的基础,能够为数据交换提供所需要的元数据信息。同时还是一套为信息资源检索、定位和共享的应用服务体系。
根据相关标准定义,资源目录可以分为部门资源目录、基础资源目录和主题资源目录,从实践中来看,梳理部门的资源目录是数据交换平台的切入点。但由于下级部门众多,各自对数据中心的期望和要求不一致,短期内数据中心的建设也不能支撑下级部门的业务,因此上报数据不积极,再加上每个下级部门都建设了数套业务系统,作为数据交换平台的实施方,也难以对委办局提出清晰、明确的数据需求。需要由数据交换管理组牵头进行资源目录梳理,也就是将要求各下级部门或单位、按照职责梳理其应该有的数据目录和数据项,后续再通过资源目录来接入各部门的数据,形成部门库,进而建设基础库和主题库,形成主题数据,去支撑各类上层应用,包括大屏分析、主题分析,甚至政务服务事项、一网通办等。
利用资源目录管理系统,可以通过在线录入资源目录,以信息化手段减轻资源目录梳理的工作,通过技术手段提高梳理的效率。整个过程就像是开一个数据超市需要联系各种供货渠道,管理各个供货渠道的供货关系,最终形成一个货物目录放到货架上。
6.2服务与接口
近些年来,随着数据服务化的意识加强越来越多新上线的系统已经提供了相关数据服务的接口,这时服务接口的数据交换管理采用SOA松耦合的思想来进行数据交换,通过灵活的服务接口和Adapter,方便SOA应用和遗留应用的集成,这种松耦合、有效灵活的架构提供了更好的扩展性。
要点说明:
调用/推送:将服务注册到数据交换平台,可以主动调用接口拉取数据。下级部门如有服务集成需求,可以直接使用交换平台提供的接口访问服务。
数据写入方式:根据数据交换逻辑的不同,可以直接写入利用资源目录管理系统,可以通过在线录入资源目录,以信息化手段减轻资源目录梳理的工作,通过技术手段提高梳理的效率。数据中心再共享给各个系统,也可以直接把数据传递给业务系统。
松耦合的服务配置:服务配置过程中会对ip和端口、服务的URI、服务逻辑编排、响应报文处理等环节进行单独配置,所以对于调用方来说,服务是透明的是非侵入的。
6.3交换管理
这里将交换管理分为两部分一部分是ETL的交换,另一部分是文件传输。
ETL的交换用于大批量非实时低频度的数据交换。不只是数据文件,包括ETL抽取上来的结构化数据、数据库抽取上来的增量日志,都先生成文件放在文件缓存区,再通过批量数据管道进行传输。
要点说明:
三种类型数据的采集:各类数据文件、ETL抽取并经过加工的结构化数据、数据库获取的增量日志。
数据传输链路:实现应用单位前置交换信息库与交换中心之间的信息处理及稳定可靠、不间断地信息传递。
ETL逻辑一次性配置:ETL文件在传输的前后都有处理逻辑,这些逻辑可以在交换中心单点配置,并自动同步到相关前置节点。
三种触发方式:可以通过定时任务调度、数据侦测、任务监控。数据库新生的日志可以通过数据侦测感知并准实时传送。
文件传输交换用于实现文件形式的数据传输。实现集团总部与成员单位之间的文件数据传输,对于大的文件,会自动对文件进行智能分割传输,支持断点续传、加密压缩传输、文件并发传输以及传输流量控制。
要点说明:
文件传输:采用一对一、一对多的方式进行文件传输,用户通过配置发送节点及发送目录、接收节点及接收目录,并配以调度策略,FTA发送节点会自动定期检测发送目录。
断点续传:在不稳定网络状态下保证数据的可靠高效传输。
加密压缩传输:系统可对发送数据进行加密,目的节点接收到加密的数据后,会对接收数据自动进行解密。提供的压缩机制,以便用户进行大容量文件传送时提高效率。
并发传输:支持并发传输,每个传输节点可以同时并发传输多个文件。
6.4数据使用
以前的数据中心建设是有什么数据就只能给什么数据,现在新一代的数据中心建设是想要什么数据就能获取到想要的数据。而能够做到这些需求的背后是数据交换技术的发展和进步。通过建立共享目录服务等共享数据库,以手工录入或导入导出等方式,将数据、文档等存入共享库中,数据交换平台实现对所需信息的快速服务发布以及便捷检索和查询。
发布后的服务能够提供给用户进行申请或订阅,数据信息订阅分为申请资源和订阅资源两种方式:
申请资源:提供消费方通过资源申请方式申请主题分类资源树中的数据实体资源,相对平台而言“拉”的方式,消费方申请资源后,向消费方开放Web服务信息、表格下载方式,由消费方主动获取数据资源。
订阅资源:提供消费方通过资源订阅方式申请主题分类资源树中的数据实体资源,相对平台而言“推”的方式,消费方订阅资源后,向平台提供数据库、文件目录地址与连接方式,由平台向消费方推送数据资源。
用户的申请或订阅是需要通过审批才能获取到数据资源的,数据管理方能够在数据交换平台中对用户所使用数据的情况进行监控。通过数据交换平台来实现数据共享和路由。这种连接方式实现了数据的无缝交换和共享访问,保证了各业务系统的有效协同,同时又能保证各应用系统的相互独立性和低耦合性,从整体上提高了系统运作效率和安全性。
用户在使用数据时就像进入了数据超市一样,数据共享平台里共享出来的各种主题就像是数据的货架,货架上摆满了各种数据,用户可以随意挑选。在找到自己想要的数据后,只要发出申请或订阅,通过审批后就能够拿到所需的数据。
6.5系统管理与监控
在系统管理和监控中数据管理方能够分配资源的使用权限,监控消费方对数据交换和数据共享的使用情况。
数据交换平台支持告警监控,在平台数据交换服务执行异常时,能够触发相关的告警服务,用户可自定义服务监控指标与告警范围,支持邮件、短信等告警方式。前面我们说了,提供的共享服务就像是开一个数据超市,那么数据交换平台的监控就像是超市中装的监控摄像头,能够监控数据交换的一举一动。保障数据资产的安全。
07
总结
普元的数据交换平融合了数据中心以及数据中台的建设思路,结合了信创对国产化以及自主可控的要求,能够适配国产化 *** 作系统和数据库的环境,数据交换平台能够将上下游的数据整合到数据中心,形成资源目录中的各种业务主题库。通过资源目录对数据进行共享,打破数据孤岛,实现各级部门间的数据资源共享、互联互通,为数据中心的建设夯实基础。
关于作者:光芒,普元项目经理,十多年的IT从业经验,一直专注于企业数据交换和数据管理的工作。曾主持参与了Primeton DI和Primeton ESB的产品研发工作,致力于自服务的数据共享和数据交换研究,在数据治理领域不断探索和研发。
关于EAWorld:使能数字转型,共创数智未来!长按二维码关注!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)