一、总体概述
ETL包括Extract、Transform、Cleaning和Load,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。
其中ETL培训的内容是如何利用Informatic
PowerCenter把源数据库的内容提取存放到目标数据库中。主要
Informatic主要包括四个部分:Client,Reposity
Server,Reposity
Database和Informatic
Server
每个部分实现自己的功能。
二、系统体系结构
此部分介绍了Informatic
ETL工具包括的主要内容。
1
Client
Informatic
Client主要有五个部分。Client可以和Reposity分离,通过TCP/IP连接,连接到远程的Reposity
Server。
²
Reposity
Manager
主要用于进行一个Reposity库的管理,当用户使用Client工具登录一个Reposity服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。
²
Designer
主要是进行数据抽取的转换工具的设计,主要是mapping的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换 *** 作(Transformation)。
同一个Reposity的folder之间可以建立shortcut方式,多个reposity的folder之间只能做拷贝。
²
Workflow
Manager
主要用于流程任务(workflow
Task)的设计。
进行任务流程的设计、每一个Tast针对一个Session,一个session针对一个mapping,其中workflow中的Folder和Designer中的folder相对应的关系。一版来说,用户都是建立自己的Folder。
²
Workflow
Monitor
主要进行流程运行、及任务运行时的流程运行情况跟踪。可以跟踪日志。包括Session日志和Workflow日志,可以设置生成日志的循环个数。分析session运行是对源数据库的数据抽出信息和对目标数据库的更新信息。
²
Reposity
Server
Application
Console
主要进行Reposity的管理,包括Reposity
Server的start,shutdown *** 作。
进行Reposity
库的backup、restore等 *** 作,进行Reposity库级别的管理,级别较高。
2
Reposity
Server
Reposity
server是为客户端服务的,客户端可以和各种client不在一台服务器上。关于数据抽取的设计成果转换成为XML格式的源数据,都是通过Reposity
Server存放到Reposity
Database
Server上的。
3
Reposity
Database
Server
用于存放的是进行ETL设计的元数据。可以支持各类的数据库。方式为数据库中用户的一个表目录和用户关系即可。
Reposity
Database可以和Reposity
server不安装在一台服务器。如果在一台机器上,server通过native方式连接到database,如果不在一台及其上,需要在database上安装一个reposity
agent,用户通过agent,以native方式连接到reposity数据库,然后reposity
agent再以tcp/ip方式连接到reposity
server。
4
Informatic
Server
Informatic
server
是实际执行数据抽取任务的运行环境。即workflows、task、sessions等。它是根据定义的workflow元数据库,然后在自己的实际环境中,执行数据抽取 *** 作。
三、系统组件功能
Informatic的功能主要体现在Designer
和Workflow
Manager上,其中Designer实现的是对数据抽取的数据转换方式设计,以及效率设计目标等。而在Workflow
Manager中再把具体的数据转换方式应用到一个具体的工作任务中,包括目标库、源库的选择,以及一条具体的执行任务的属性设置等等。包括任务的insert、truncate、delete、increment
insert等。
1
Designer
²
工作区
在Designer中,涉及到的工作区主要包括有Source
Analyzer、Warehouse
Designer、Transformation
Designer、Mapplet
Designer和Mapping
Designer。
其中每个工作区的功能分别介绍:
Source
Analyzer:
Source
Analyzer的功能是实现对源数据库表的设计,可以手工的进行源数据库的设计,一般都是通过从Flat
File或者Relation
DBMS中导入数据库的表结构。XLS文件结构。
Warehouse
Designer
用于设计目标数据库库的结构,可以利用手工设计,也可以利用import工具导入导一个warehouse的结构。
Transformation
Designer
用户设计可重用的transformation组件,这里的组件,在一个folder里面都是可以重用的,而且以shortcut的方式使用。Transformation组件的修改,会直接反映到使用此transformation的mapping中。
Mpplet
设计可以重用的多个组件,只要有output组件,可以有input组件,也可以没有input组件,实现的功能就和一个expression的功能类似,实现功能。
Mapping
Designer
实现的功能是设计具体进行抽取数据的mapping,这些mapping应用到一个workflow中,形成了workflow的一个session(task)。
²
组件功能
ETL支持的组件主要包括两类:Active组件和Passive组件,其中Active组件是对输入记录集在输出时个数有变化的组件,Passive组件,输入的记录集,输出时记录集的个数不发生改变。
Informatic提供的组件包括:
(1)
Source
Qualifier:
reads
data
from
flat
file
&
relational
sources
(2)
Expression:
performs
row-level
calculations
(3)
Filter:
drops
rows
conditionally
(4)
Sorter:
sorts
data
(5)
Aggregator:
performs
aggregate
calculations
(6)
Joiner:
joins
heterogeneous
sources
(7)
Lookup:
looks
up
values
and
passes
them
to
other
objects
(8)
Update
Strategy:
tags
rows
for
insert,
update,
delete,
reject
(9)
Router:
splits
rows
conditionally
(10)
Sequence
Generator:
generates
unique
ID
values
(11)
Normalizer:
normalizes
records
from
relational
or
VSAM
sources
(12)
Rank:
filters
the
top
or
bottom
range
of
records
(13)
Union:
merges
data
from
multiple
pipelines
into
one
pipeline
(14)
Transaction
Control:
allows
user-defined
commits
(15)
Stored
Procedure:
calls
a
database
stored
procedure
(16)
External
Procedure
:
calls
compiled
code
for
each
row
(17)
Custom:
calls
compiled
code
for
multiple
rows
(18)
Midstream
XML
Parser:
reads
XML
from
database
table
or
message
queue
(19)
Midstream
XML
Generator:
writes
XML
to
database
table
or
message
queue
每一类组件都有自己独特的功能和特点,这里介绍主要的组件包括上述红色的内容。每一种组件的详细功能这里不详细介绍。
2
Workflow
Workflow是对执行任务的执行进行控制,可以在执行时对执行的任务进行传参数进行传入,这样就能在执行的时候把数据库表进行动态的设置。
可以在执行的时候选择参数文件,对mapping、workflow中的Session的参数进行传入。达到动态执行的目的。
Workflow中定义workflow、session等任务,对这些任务的执行进行管理控制。
四、补充说明
(1)
Source
Qualifier支持同构数据源的连接,衣钩数据源的连接通过N-1个jointer组件实现。
(2)
Lookup为passive组件,查出的多条记录集,要么取first,或者last,或者报错。
(3)
Lookup可以时动态/静态
,可以connected/unconnect
SQL是Structured Query Language的简称,英式读法为 [ˈstrʌktʃəd ˈkwɪəri ˈlæŋɡwɪdʒ]。
结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
SQL数据库的数据体系结构基本上是三级结构,但使用术语与传统关系模型术语不同。在SQL中,关系模式称为“基本表”(base table);存储模式(内模式)称为“存储文件”(stored file);子模式称为“视图”(view);元组称为“行”(row);属性称为“列”(column)。
SQL包括了所有对数据库的 *** 作,主要是由4个部分组成:
1、数据定义:又称为“DDL语言”,定义数据库的逻辑结构,包括定义数据库、基本表、视图和索引4部分。
2、数据 *** 纵:又称为“DML语言”,包括插入、删除和更新三种 *** 作。
3、数据查询:又称为“DQL语言”,包括数据查询 *** 作。
4、数据控制:又称为“DCL语言”,对用户访问数据的控制有基本表和视图的授权及回收。
5、事务控制:又称为“TCL语言”,包括事务的提交与回滚。
6、嵌入式SQL语言的使用规定:规定SQL语句在宿主语言的程序中使用的规则。
数据库管理系统(Database Management System,DBMS)是一种 *** 纵和管理数据库的大型软件,是用于建立、使用和维护数据库。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。
用户通过dbms访问数据库中的数据,数据库管理员也通过dbms进行数据库的维护工作。它提供多种功能,可使多个应用程序和用户用不同的方法在同时或不同时刻去建立,修改和询问数据库。它使用户能方便地定义和 *** 纵数据,维护数据的安全性和完整性,以及进行多用户下的并发控制和恢复数据库。
简介:
“数据库”作为短语最早使用的是在1963年6月,SystemDevelopmentCorporation赞助举办了一个题为“开发计算机管理中心数据库”(“DevelopmentandManagementofaComputer-centeredDataBase”)的研讨会。数据库作为一个独立的单词大量在70年代初的欧洲出现,直到二十世纪末才被美国各大报纸使用。
DB 数据库中 编目(catalog)这个单词很难理解 具体来说编目有编目节点 编目数据库等 如果要理解编目 我先简单讲一下DB 数据库的体系结构 在DB 数据库中最大的概念是系统(节点)也就是主机 下面是实例 实例下面是数据库 然后是表空间 然后是数据库对象 现在假设你有一个数据库服务器在p 的机器上 你有一个客户端在windows linux或任何平台上 你现在想建立一个客户端到服务器端的连接 具体步骤是什么呢
第 步
你必须要在客户端的机器上能够把远程的服务器能够识别出来 这个具体如何来做呢在DB 使用的编目(catalog)方式 具体来说就是通过编目把远程的服务器写在本地客户端的一个文件中
db catalog tcpip node p remote server
在上面的这条命令中p 是一个节点名(在一个机器上必须是唯一的) remote后面是服务器的IP地址 server是远程服务器上实例对应的端口号 DB 通过这种方式在本地的SQLNODIR文件中把远程服务器的信息记录下来 所以编目节点其实就是把远程服务器映射到本地 通过SQLNODIR中的记录能够找到远程服务器和实例 类似指向远程服务器和实例的地址指针
第 步
当把远程的服务器IP地址 实例编目下来后 第二步应该把该实例下的数据库编目到本地
db catalog db REMOTEDB at node p
在这条命令中 REMOTEDB是远程实例下的数据库 p 是我们在第一步中编目的节点名
这条命令执行后会在本地SQLDBDIR文件中记录远程数据库的信息 这这里编目数据库可以理解为把远程服务器实例下的数据库映射到本地为一个别名
=========================================
上面是客户端和服务器不在同一台机器上 是通过编目节点 编目数据库来实现客户端连接到服务器上数据库的目的 如果是连接在同一台机器上 那么这时候不要显示的编目节点 但是在服务器上当我们创建一个实例的时候 有一个隐含的把实例在本地编目的过程 假设在p 上创建一个实例名为db inst 其实有一个隐含的
db catalog local node db inst instance db inst system p ostype aix的步骤
同样当你在db inst 下创建一个数据库MYDB的时候 有一个隐含的编目(catalog)数据库的步骤
db catalog db mydb at node db inst 的步骤
lishixinzhi/Article/program/DB2/201311/11228
1、网络流行语。DDL,deadline的英文缩写,取该英语单词主要发音的辅音字母而得名。指“死线”或“最后期限”,一般某指任务截止的最后期限。比如某项工作的截止日,或学校收取入学申请书的最晚日期。
2、数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。
数据库模式定义语言并非程序设计语言,DDL数据库模式定义语言是SQL语言(结构化查询语言)的组成部分。SQL语言包括四种主要程序设计语言类别的语句:数据定义语言(DDL),数据 *** 作语言(DML),数据控制语言(DCL)和事务控制语言(TCL)。
查询语句的重写的实现主要是对SQL语言中的两大类语句进行重写,即数据定义语言DDL和数据 *** 纵语言DML。
DDL描述的模式,必须由计算机软件进行编译,转换为便于计算机存储、查询和 *** 纵的格式,完成这个转换工作的程序称为模式编译器。
模式编译器处理模式定义主要产生两种类型的数据:数据字典以及数据类型和结构定义。
数据字典和数据库内部结构信息是创建该模式所对应的数据库的依据,根据这些信息创建每个数据库对应的逻辑结构;对数据库数据的访问、查询也根据模式信息决定数据存取的方式和类型,以及数据之间的关系和对数据的完整性约束。
数据字典是模式的内部信息表示,数据字典的存储方式对不同的DBMS各不相同。
建议采用SQL2005+VS2008,先构建数据库结构,设计好需要建几个表,各个表都需要用到哪些字段,然后在VS2008中建项目,做窗体,大概就是这个思路。如果不熟悉,找本带实例的教程看一遍就好了
以上就是关于Informatic 是什么意思全部的内容,包括:Informatic 是什么意思、sql怎么读、DBMS是什么等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)