ETL是什么材料

ETL是什么材料,第1张

ETL 不是一种材料,它是 Extract、Transform、Load 的缩写,是一种数据处理的方法。

ETL 是用于将源系统数据提取(Extract)到目标系统中进行转换(Transform),最后将转换后的数据载入(Load)目标系统的过程。这个过程有助于从不同来源、不同格式和不同质量的数据中创建高质量、一致性的数据集,以便于分析和报告。

ETL 可以广泛应用于数据仓库、商业智能、数据迁移等领域。通过 ETL,我们可以将来自不同数据库、文件、网络等的数据整合起来,进行清洗、加工和转化,使得数据质量更高、更易于使用。

E L 是Expression Language的缩写,目的是为了使JSP写起来更加简单。表达式语言的灵感来自于 ECMAScript 和 XPath 表达式语言,它提供了在 JSP 中简化表达式的方法。它是一种简单的语言,基于可用的命名空间(PageContext 属性)、嵌套属性和对集合、 *** 作符(算术型、关系型和逻辑型)的访问符、映射到 Java 类中静态方法的可扩展函数以及一组隐式对象。EL 提供了在 JSP 脚本编制元素范围外使用运行时表达式的功能。脚本编制元素是指页面中能够用于在 JSP 文件中嵌入 Java 代码的元素。它们通常用于对象 *** 作以及执行那些影响所生成内容的计算。JSP 20 将 EL 表达式添加为一种脚本编制元素。

ETL

ETL:Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。

DW:Data Warehousing,根据BillInmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。

Metadata:元数据。描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。

2、 ETL是数据仓库建立的核心过程

数据仓库系统先天不足,是在业务系统的基础上发展而来的,其内部存储的数据来自于事务处理的业务系统和外部数据源。而企业内各源数据缺少统一的标准,因企业的业务系统是在不同时期、不同背景、面对不同应用、不同开发商等各种客观前提下建立的,其数据结构、存储平台、系统平台均存在很大的异构性。因而其数据难以转化为有用的信息,原始数据的不一致性导致决策时其可信度的降低。

ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,其工作量要占整个项目的60%-80%,这是国内外从众多实践中得到的普遍共识。

3、 ETL过程的主要目的

就是以最小代价(包括对日常 *** 作的影响和对技能的要求) 将针对日常业务 *** 作的数据转化为针对数据仓库而存储的决策支持型数据。

数据库文件格式是数据库系统定义的用来存放数据的文件格式。\x0d\一般情况下,大型数据库系统都将数据分成不同的文件来存放,如ORACLE,Sybase, Informix, MySql,也有只放在一个文件下的如SQL Server, Access,但无论放几个文件,其原理都是在各自文件内划分成许多页(Page),所有的数据都是按页来存放,这也是SQL Server中建索引时指定"填充因子(Fill Factor)"的用处;所有的页面都会对应一个索引页(B-Tree, 2叉树,堆等),通过索引页来调度。\x0d\SQL Server 读取其他数据源的方法有很多:\x0d\1 通过 Management Studio 中的 Import/Output Data 工具\x0d\2 通过 Sql Server Integration Service 中可 Data Transform Package\x0d\3 通过 T-SQL 语句 OpenQuery 读取

5221 数据库

根据该系统的开发需求,按照数据库的功能和作用将其分为风险查询类、风险评价类、系统管理类三大类(萨师煊等,2000)。主要数据见表55。

表55 海外油气与金属矿产资源开发风险管理系统的主要数据表

续表

5222 数据仓库

油价数据来源于美国能源部(DOE)下属的能源信息署(EIA)网站、中石油(CNPC)网站和《华尔街日报》(WSJ)网站提供的油价数据,油价序列本身就是一个不规则的时间序列,油价数据具有以下几个特点。

(1)数据的一致性差

油价数据格式多样,存在数据冗余,主要体现在:使用的数据格式均不相同,并且各个子系统相对独立。在网站单独作用的情况下,一般都没有问题,但要将这些不同系统或不同时期的数据集中起来综合利用,就可能出现数据不齐全、不一致或重复的现象。

(2)数据存放的分散

油价数据来源多,缺乏统一管理,没有一种相应的网页数据自动化抓取 *** 作实现数据的本地化 *** 作过程。

(3)数据资源开发不充分

大容量数据导致对数据资源的开发利用不充分,缺乏对获取的数据如各分析机构制定的期货合约元数据进行各种深层次分析、综合、提炼、挖掘和展现的应用,因此很难对丰富的统计数据资源进行二次开发利用。

根据油价数据中所包含的油气产品种类、油气产品合约制定日期、油气产品的价格类型、不同市场下油气产品价格的差异等,能够加深对油价走势的了解。油价的这种与时间相关性、不可修改性,以及集成的性质,使得我们采用多种角度对原始数据进行理解,并真实反映其特性,也让我们发现使用一种整合的技术对油价进行精确预测十分必要。

数据仓库的构建流程如图513所示由下至上逐步实现。

图513 数据仓库构建流程

1)数据源。

A数据源的复杂性。数据分散在数据库管理系统、电子表格、电子邮件系统、电子文档甚至纸上。系统中要求采集的3个数据源中,EIA 网站存储在网页上的油价相关事件更新较慢,虽然提供了各市场日、周、月、年的油价数据下载,但是下载完成之后的表格字段格式时常发生变化,这为实现自动获取数据并下载到本地自动入库的要求增加了难度;中石油网站数据除上述只显示3条数据之外,网站上会将访问流量过大的IP地址列入黑名单使其不能继续下载到本地进行保存,为这些数据建立统一的模型将会耗费很大精力。

B数据的有效性。由于存在经验局限,如何处理数据的空值、不同时间间隔时间字段格式,入库时应注意的问题等,如果应用程序没有检验数据的有效性,会对数据多维显示产生极大影响,因此也归结为数据源数据质量问题。

C数据的完整性。数据源上的数据并不那么明显或者容易获得。油价是高度敏感的数据,因此各个网站虽然提供了各个油品交易市场的日、月或年数据,但是完整性并不能充分保证,根据企业政策的不同,有时对要获得的数据,需花费大量精力。为此,要对不同的数据源进行建库,以保证所获数据的完整性。

2)数据处理。

高效的多维数据集展示离不开底层数据源数据的精确获取,或者叫做数据理解和数据清洗。于是系统在基于元数据获取、加工、入库和多维数据集展示上实现预期的要求。

AETL。该功能是整个油价数据仓库的核心之一,主要功能是按照事先定义的数据表对应关系从相关系统表中抽取数据(Extraction),经过数据清洗和转换(Transform),最终把正确的数据装载到数据仓库的源数据中(Load),作为以后应用的基础。

B数据转换。该功能是在数据抽取过程中按照定义的规则转换数据,避免了数据在分析时的多样性,保证数据一致性。

C数据集成。该功能主要是把油价信息数据仓库系统的源数据,按照事先定义的计算逻辑以主题的方式重新整合数据,并以新的数据结构形式存储。

3)数据存储。

星型模型(星型架构)是数据仓库开发中多维展现重要的逻辑结构,构成星型模型的几个重要特征是:维、度和属性,在实际应用中表示为事实表和维度表。在油价数据中,各市场的期现货价格表为数据仓库的事实表,油品类型、合约规定日期等为维度表。

油价数据仓库星型模型的设计方案如下:

A事实表。数据库表中EIA的期现货价格表(包括日、周、月、年表)作为数据仓库中的事实表,根据不同时间维度构成多个星型模型,即星座模型。这些价格表中以市场编号、油气产品类型、期货合约日期、价格单位度量衡编号作为主键和外键与其他维度表相连,形成多维展示联动的基础,以油价数据和其他事实数据为记录数据,作为主要输出结果。

B维度表。根据市场、油品、价格数据、度量衡和事件类型作为油气数据仓库中多维分析的角度和目标。

图514以EIA的日期货数据表作事实表为例,构建星型模型,其他不同时间维度的模型结构图与此图基本相同。

图514 以EIA数据为例的日期货价格星型模型

以星型模型设计为基础,完善数据存储中 *** 作型数据存储(ODS)的原型设计,提供DB-DW之间中间层的数据环境,可实现 *** 作型数据整合和各个系统之间的数据交换。

下面是中达咨询给大家带来关于数据整合技术在水利设计方面的使用成功点,以供参考。

要数据整合已经成为未来水利设计单位进一步发展的必经之路,水利设计单位需要进一步的发展和提高,就需要进行数据整合。文章采用数据整合技术,充分整合综合办公管理、计划经营管理、项目设计流程管理、图档管理数据资源,并建设成统一的数据集成平台。利用这一数据集成平台将四大数据资源,经过抽取、规则转换、清洗、加载,形成整合资源库,为经营和战略决策提供数据支持。

决策分析需要的数据通常都是统计数据,但在现有信息系统下进行会比较复杂。原因有:①做出一个决策分析往往需要查询多个基于各种异构数据源的信息系统和外部系统,并进行大量数据分析,工作量大,数据利用率不高,且容易出现人为差错。②现有信息系统平台及开发工具互不兼容,直接提取这些数据比较麻烦。③各个信息系统没有统一的数据接口,也没有通用的数据标准和规范,各个数据库无法直接集成。④统计分析需要大量的历史数据,但是历史数据并不完整。

因此,为了适应决策信息系统建设的需要,我们采用数据整合技术,充分整合综合办公管理、计划经营管理、项目设计流程管理、图档管理数据资源,并建设成统一的数据集成平台。

1数据资源分析

数据整合资源库的数据都是一些统计和分析数据,如项目进度跟踪管理统计、产值管理统计等,它们来源于生产数据,所以在数据整合之前,需对现有生产数据资源进行归类。现阶段生产数据资源主要分为综合办公管钾数据集、计划经营管理数据集、项目设计流程管理数据集和图档管理数据集等。

1)综合办公管理数据集是实现人员基础信息统一管理的基础数据集。主要包括:①个人基本信息:包括个人信息库等。②单位基本信息:包括单位基本信息库、单位所属分支机构信息库等。③参数信息库:包括代码库、图表分析生成库等。

2)计划经营管理数据集主要包括:①市场信息:包括顾客信息资源库、市场动态信息库、竞争对手信息库等。②招投标管理信息:包括招标信息库、投标信息库、专家信息库等。③合同信息:包括合同信息库、收付款项信息库、产品交付管理库等。④资质管理信息:包括资质信息库、资质审核库、资质借用管理库等。

3)项目设计流程管理数据集主要包括:①项目信息:包括项目立项信息库、任务下达信息库、项目组人员任命库等。②项目任务分解:包括项目任务分解资源信息库、关键路径控制等。③网络虚拟办公室:包括项目动态信息库、中间成果管理库、动态分析库等。④产品管理信息:包括产品校审信息库、成果交付信息库等。

4)图档管理数据集主要包括:①归档管理信息:包括资料预归档管理库、资料归档管理库等。②整编信息:包括档案整编信息库等。③借阅信息:包括人员信息库、档案借阅信息库等。④电子档案信息:包括电子档案授权库、电子档案借阅管理库等。⑤销档信息:包括销毁档案信息库、销毁人员信息库等。

2数据整合的实现方式

水利设计单位集成信息系统数据库大多为SQLServer数据库,数据整合实现方式通常可以采用数据库开发技术和ETL技术实现,以下分别介绍这两种实现方式。

1)数据库开发技术。利用数据库开发技术的数据整合主要指利用数据库本身的功能,如触发器、PL/SQL存储过程、DBLINK等功能完成,完成对各个信息系统所需要数据的抽取、查询和关联等。

这种数据整合技术有如下优势:①适合于同种数据库之间的数据集成。②投资少,基本都是靠开发人员手工编程为主,只需要一些开发费用。但是该数据整合实现技术也存在一些局限性。③扩展性较差。由于都是开发人员手工编程,后期的维护成本较高,特别是在决策需求发生变化时,需要开发人员修改程序源代码。④数据整合效率问题。由于数据库都靠开发商编写,在系统日趋庞大的情况下,在面对复杂的数据整合问题上,效率难以得到保证。

2)ETL技术。通过ETL技术及专业ETL软件,即数据抽取(Extract)、转换(Transform)、装载(Load)能将数据从原系统数据库经过抽取,进行转换,最后加载到目标数据库,实现系统数据之间的整合。该数据整合实现技术运用在水利设计单位集成信息系统有如下优势:①高效率。ETL软件的数据抽取、转换、加载的效率非常高,特别对于大数据量的抽取。并且支持对ORACLE9i增量数据抽取。②改进数据质量。能够根据各种条件校验源数据和目标数据质量,对垃圾数据进行清洗。③强大管理功能。能够通过WEB管理界面对数据抽取策略执行制定时间触发方式,对抽取结果进行分析等。④多平台、多数据源支持。支持各种平台、各种数据库系统(如ORACLE、SQLServer等)以及不同版本数据库之间的数据抽取。⑤具备多种数据转换控件,能够完成各种非常复杂的数据转换工作。但是该数据整合实现技术也存在一些局限性:投资费用较为昂贵,实施周期通常较长。

3数据整合的实施

数据整合实施工作分为4个阶段。

1)第一阶段为对信息系统原始数据分析阶段。为了更加全面理解各种数据格式的含义,获得各种相关文档资源,因此首先要对信息系统原始数据进行分析。该阶段主要包括了解需要采集的数据结构定义和数据表之间的设计联系。例如:我们对包括非电子数据、excel格式数据及其各种不同数据库格式数据进行分析。

2)第二阶段为设计实施阶段。为了不影响原始数据格式的改变及其调用,并保证它们的安全性,第二阶段主要是定义数据整合规则及策略的设计实施阶段。前者包括字段映射、合并、函数计算定义等。后者主要定义时间策略。

3)第三阶段为数据校验阶段。为了不会产生各种不完整甚至错误信息,因此在系统正式运行之前,必须建立严格的数据校验机制,以保证生产数据和整合平台数据的一致性。例如:我们对导人的数据进行校验,主要标准为水利设计单位设计规范标准,并对校验出来的问题进行处理,主要是人工处理确认。

4)第四阶段为系统上线阶段。将设计好的数据整合流程正式发布,并可设定计划定时执行,系统管理人员可以通过监控界面,进行任务监控和跟踪。根据需求,管理人员还可修改计划,合理安排数据转换任务,以在规定的时间内完成所有的数据转换和加载任务。

4结语

数据整合将改变原有的以部门和项目为中心的信息孤岛局面,从而能够实现整个水利设计单位的数据整合。原有的部门级、以项目为中心的运作方式,将可能使得各个项目的使用技术不尽相同,也使得项目的进度依赖于开发人员的编码效率,从而使得整个水利设计单位的效率低下。

进行整个单位的数据整合之后,就能够在水利设计单位内部统一技术架构和标准,充分发挥团队协作的效率。通过由数据整合进行的数据移植、数据仓库等,将能够使得水利设计单位的数据整合成本大大下降。

更多关于工程/服务/采购类的标书代写制作,提升中标率,您可以点击底部官网客服免费咨询:>

以上就是关于ETL是什么材料全部的内容,包括:ETL是什么材料、有哪位大虾知道数据库方面有关ETL和EL的区别谢谢!、数据库文件格式是什么意思等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9448530.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存