浅析元数据在数据仓库中的应用:大数据仓库

浅析元数据在数据仓库中的应用:大数据仓库,第1张

摘 要:元数据作为存储数据的数据,在各种数据仓库教材中都涉及到元数据的管理知识,但是在实际应用中对于元数据的管理却使用的很少,大多数据仓库开发人员都了解元数据的重要性,但是在真正应用中却很少使用,或者说不知道如何构建元数据库,本文就针对元数据的管理以及在Sql Server 2005中的具体实现。

关键词:元数据 数据仓库 数据模型 程序设计

中图分类号:TP31113 文献标识码:A 文章编号:1672-3791(2012)05(c)-0034-01

元数据是整个数据仓库的核心,它描述了仓库中的各个数据对象,遍及仓库的各个方面,同时它在数据仓库的建造及运行中起着极其重要的作用。而元数据大致分为关于数据源的元数据,数据模型的元数据,数据仓库映射的元数据以及数据仓库使用的元数据的四个方面类型。

(1)数据源的元数据。关于数据源的元数据在利用这类元数据时对不同数据源平台上的物理结构和含义是现有系统业务数据源的描述信息。其具体有以下几点:①数据源中所有物理数据结构,包括所有的数据项及数据类型。②所有数据项的业务定义。③每个数据项更新的频率,以及由谁或哪个过程更新的说明。④每个数据项的有效值。⑤其他系统中具有相同业务含义的数据项清单。

(2)数据模型的元数据。关于数据模型的元数据是数据仓库管理的基础,同时描述了仓库中有说明数据以及数据之间的关系。当一些用户提出需要哪些表系统就能从中选出这个表,这就说明了元数据可以支持用户从数据仓库中获取数据。通过这种关系表用户就能获取很多希望数据。

描述数据仓库中的数据及数据之间的各种复杂关系,元数据要定义以下内容。数据仓库中描述数据及数据之间的各种复杂的关系,现定义以下内容:①I/O对象:元数据在描述I/O对象的定义、类型、状态以及存档周期都是支持数据仓库I/O *** 作的各个对象。②关系:两个I/O对象之间是关联的。这种关联有三种类型分别是一对一、一对多和多对多。③关系成员:描述每个关系中两个I/O对象的具体角色(在一对多中是父亲还是儿子)、关系度(一对一还是一对多)以及约束条件(必须满足还是可选关系)。④关系关键字:描述两个I/O对象如何建立关联。每个关系都是通过I/O对象的关键字来建立的,元数据要指明建立每个关系的相应对象的关键字。

(3)数据仓库映射的元数据。数据仓库映射的元数据是数据源与数据仓库数据之间的映射,当数据源的数据项与数据仓库建立映射关系时,就要记下这些数据项发生的一些转换、变换和加载的过程。就是用元数据反映数据仓库的数据项是从转换、变换和加载过程这些特定的数据源填充的。而转移元数据的数据到数据仓库的目标数据是一件复杂的工作,其工作量占整个数据仓库的80%。其主要涉及以下两方面:①抽取工作之间的复杂关系。②源数据与目标数据之间的映射。

(4)关于数据仓库使用的元数据,数据仓库使用的元数据时对数据仓库中信息使用情况的描述。数据仓库的用户最关心的是以下两类元数据。①元数据描述数据仓库中有什么数据,它们从哪里来,即如何按主题查看数据仓库的内容。②元数据提供已有的,可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。

1 元数据的管理

随着元数据越来越成为公司重要的资源,就越来越需要完善的元数据管理功能,包括:(1)支持企业范围内的体系结构。企业在开发应用程序、封装应用程序、决策支持数据库时,他们关心的是软件设计与开发、用户接口、 *** 作管理、应用程序内部的消息传递、数据的协同工作能力。所有这些都驱使开发人员去理解各种元数据目录,以及它们在企业范围内的体系结构的作用。(2)基于知识库的方法。元数据一般存储在其特定工具相关的属性知识库中。因此,企业可以要求提供一种机制,可以将其特定工具支持的元数据无缝地转移到一个共享的、公共的元数据知识库中。(3)配置管理。元数据知识库必须提供标准的配置管理能力,如注册、退出、版本控制等。还需要提供抽取、修改元数据的定义以及将其定义存到知识库中,此外,还必须具有在必要的时候将元数据恢复到某一个前版本的功能。(4)支持开放的元数据交换标准。企业内部和外部对元数据的访问导致了对开放的元数据交换标准支持的需求。至少企业元数据应该支持MDIS(元数据交换标准)。(5)动态交换和同步。企业应该采用MDIS标准,实现动态交换或同步,否则需要一个开放的元数据交换工具。

2 元数据在Sql Server 2005中的应用

21 概念

元数据描述OLTP中的表、数据仓库、数据集市和OLAP多维数据集等对象,还记录程序引用的对象。

22 具体实现和元数据的获取

在Sql Server 2005中一般由数据库系统本身产生元数据,或者在相应编程中产生元数据,不需要用户自己创建,当然用户也可以自己创建。例如在DotNet创建多维数据集时,自动产生XML格式的元数据。

下面介绍如何从Sql Server2005中获取元数据。

(1)使用系统提供的存储过程和系统函数访问元数据。

系统存储过程与系统函数在系统表和元数据之间提供了一个抽象层,使得我们不用直接查询系统表就能获得当前数据库对象的元数据。

存储过程如下。

sp_columns返回指定表或视图的列的详细信息。

Sp_databases返回当前服务器上的所有数据库的基本信息。

Sp_fkeys若参数为带有主键的表,则返回包含指向该表的外键的所有表;若参数为带有外键的表名,则返回所有同过主键/外键关系与该外键相关联的所有表。

Sp_pkeys返回指定表的主键信息。

Sp_server_info返回当前服务器的各种特性及其对应取值。

Sp_sproc_columns返回指定存储过程的输入、输出参数的信息。

Sp_statistics返回指定的表或索引视图上的所有索引以及统计的信息。

Sp_stored_procedures返回当前数据库的存储过程列表,包含系统存储过程。

Sp_tables返回当前数据库的所有表和视图,包含系统表。

(2)使用信息架构视图访问元数据。信息架构视图功能很强,它独立于系统视图,即便系统视图发生改变也不会更改信息架构视图。应用程序可以正常访问信心架构视图。

(3)使用系统表访问元数据。Sql Server中所有的对象信息都存在系统表中,可以通过系统表访问元数据。

3 结语

目前,元数据库的建立主要通过系统自动产生,然后由用户使用,用户很少自己创建元数据,但是随着数据量的增加和数据库设计的复杂性,以及程序设计的复杂性,尤其是数据仓库方面,越来越需要设计人员构建自己的数据仓库。

大数据各行各业的企业都提供了潜力。正确使用这些大数据信息可能将增加商业价值,帮助您的企业从市场竞争中脱颖而出。如下是几个企业成功应用大数据的案例: 大数据的例子 汽车制造商已经开始使用大数据来了解汽车何时需要返回到车库进行维修。使用汽车发动机的数百个传感器,可以为汽车制造商发送实时的数据信息,这使得制造商甚至比驾驶汽车的司机还要提前知道汽车何时会出现故障。卡车制造商开始使用大数据,基于实时交通条件和客户的需求来改进他们的路由,从而节约燃料和时间。 零售业也开始越来越多的使用大数据,鉴于越来越多的产品均有一个RFID标签能帮助零售商跟踪产品,知道很少某种产品库存缺货,并及时向供货商订购新产品。沃尔玛便是这正确利用大数据这方面的一个很好的例子。当零售商开始识别他们的客户时,就能够更好地建立商店,更好的满足客户的需求。 当然,上述这些只是几个浅显的例子,大数据的可能性几乎是无止境的。不久的将来,我们将讨论在大数据平台上的最佳实践。知道大数据能够提供商业价值是一回事;而企业要知道如何创建正确的架构则又是另一回事了。 大数据结构 大数据有三个特征,使得大数据不同于现有的数据仓库和商业智能。大数据的这三大特点是: 数据量庞大:大数据的数据量相当庞大,更多的时候大数据的数据量可以达到比数TB到PB级字节。 高速度传递:所有这些TB和PB字节的数据能够实时交付,数据仓库每天都需要应付如此高速的数据流。

方法/步骤

1

表空间类型

● PERMANENT:永久表空间包含持久模式对象,对象在永久表空间保存数据文件(datafile)。

● TEMPORARY:在临时表空间期间包含模式对象,对象在临时表空间保存临时文件(tempfile)。

● UNDO:如果数据库在还原管理模式下运行,还原表空间被 Oracle 数据库永久表空间管理还原数据。

2

名:设置数据文件或临时文件的名。

大小:设置数据文件或临时文件的大小。

单位:定义数据文件或临时文件大小的单位。指定数据文件自动扩展到最大磁盘空间。使用下拉列表 K、 M、 G、 T、 P 或E 来指定大小,分别为千字节(kilobytes)、百万字节(megabytes)、十亿字节(gigabytes)、兆字节(terabytes)、拍字节(petabytes)或艾字节(exabytes)。

重用:允许 Oracle 重用现有的文件。

路径:指定数据文件或临时文件的路径。

3

自动扩展:ON(启用)、OFF(禁用)现有数据文件或临时文件自动扩展。

下一个大小:当扩展区需要时,指定自动分配数据空间以字节为单位递增大小。默认的是一个数据块大小。使用下拉列表 K、M、 G、 T、 P 或 E 来指定大小,分别为千字节(kilobytes)、百万字节(megabytes)、十亿字节(gigabytes)、兆字节(terabytes)、拍字节(petabytes)或艾字节(exabytes)。

无上限:Oracle 可以分配无限磁盘空间给数据文件或临时文件。

4

最大大小:指定数据文件自动扩展的最大磁盘空间。使用下拉列表 K、 M、 G、 T、 P 或 E 来指定大小,分别为千字节(kilobytes)、百万字节(megabytes)、十亿字节(gigabytes)、兆字节(terabytes)、拍字节(petabytes)或艾字节(exabytes)。

无上限:Oracle 可以分配无限磁盘空间给数据文件或临时文件。

独立的B2C商城网站如何运营,我有以下几个思路,供大家参考:

第一,进行SEO优化,从百度获取海量的长尾流量。

独立B2C商城网站的SEO优化,跟普通的企业官方网站的SEO优化策略是不同的。普通的企业官方网站,只有几个、十几个页面,所以通常只在网站首页设置3-5个最重要的关键词,并采取方法,对这3-5个关键词进行SEO优化,如果能使得这3-5个关键词在百度上排名靠前,就是成功的。这3-5个关键词,每天通常只能带来100个以内的IP流量。

而独立的B2C商城网站,对流量的要求极高,它需要海量的流量(几千、几万、十几万、几十万的IP流量),如果仅仅靠首页的3-5个重要关键词,显然无法带来足够的流量,也就无法提升足够的销量。由于独立B2C商城网站包含有海量的产品信息,我们假设你的商城包含有10万条产品信息,如果每条信息每天从百度获取1个IP流量,那么每天就能从百度获取10万IP。如果你的商城果真每天有10万IP,那么商城会活得相当滋润。

商城的每个页面,都对应着一个Title,Title里包含着产品关键词。商城的SEO优化人员,要针对每个页面进行SEO优化:从客户搜索心理的角度设计好每个Title的长尾关键词,并对页面做好用户体验结构布局和关键词布局,页面与页面之间做好内链。并且,一定要多做优质的原创内容和外链,提高商城的权重,让商城的大部分页面都能被百度收录。

给商城做好SEO优化,能从百度带,这些来海量的自然流量流量都是免费的。我不建议中小独立商城做百度付费竞价广告,高额的广告费用可能一时会提升销售额,却不会带来实际的利润增长。对中小企业来说,宁可步子慢点,也要实现阶段盈利和整体盈利。不盈利,就只有死路一条。把节省下来的广告费,花在请一两个SEO高手员工身上,更加划算。

第二,进行社会化媒体的品牌互动宣传推广。

如果一个独立商城仅仅是一个简单的售卖产品的网站,那么,这样的网站既无法提高购买转化率,也很难实现长期的品牌效应。而社会化媒体,将帮助中小独立商城加快提升品牌的建设和升级。

社会化媒体,包括博客、论坛、视频、SNS、空间、微博、微信等互动网络工具。中小企业通过社会化媒体的全面运作,可以把商城的品牌文化快速地传播出去,从而获得海量用户的情感认可。当这种情感认可一旦建立起来,商城的购买转化率就会成倍提升,商城也将因此进入良性的高速发展之道。

中小商城的负责人,必须对社会化媒体的每个网络工具加以重视:

1博客:同时注册阿里、新浪、搜狐、网易、凤凰、天涯等十几个知名博客,聘请写手坚持写作软文。

2论坛:同时注册阿里、新浪、搜狐、网易、天涯等100个论坛,把软文同步更新到这所有的论坛上,并策划热门话题进行炒作。

3视频:每个月拍摄一条有创意的视频,在优酷、土豆、酷六、56等知名视频网站上播放。

4SNS:同时注册人人、开心、朋友、豆瓣、百度贴吧等知名SNS,投放软文。

5空间:每个员工都要利用QQ空间,发布软文和说说,实现品牌在空间里的病毒式扩散。

6微博:同时注册新浪微博、腾讯微博、搜狐微博、网易微博、凤凰微博、天涯微博,并同步更新微博信息,积极进行碎片情感传播。

7微信:同时注册腾讯微信、网易易信、阿里来往、腾讯微视等移动营销工具,快速抢占移动端客户。

第三,进行大数据库的建立、维护。

一个独立商城最核心的地方,就是大数据库。很多独立商城有流量,但由于忽视了大数据库的建立和维护,所以购买转化率和后续购买率极低。

独立商城可以借用微博、微信等第三方平台建立数据库,但从根本上来说,对第三方平台的依赖会导致以后受制于人。因此,独立商城应该建立属于自己独立的大数据库,给所有客户建立详细的数据资料,才能获得长远的发展。

大数据库的建立和维护,对于商城的人员、技术的要求很高。所以,中小企业应该在硬件、软件方面做好充足的准备。

第四,分销系统的建立。

如何建立强大的分销系统呢

1在独立商城上开辟一个分销频道,制定好分销商拿货价格,一定要保证分销商可以得到极大的利润分成。

2通过社会化媒体和报纸广告进行招商,严格审批分销商的资格,确保分销商的质量。

3建立专门的分销售后服务部,给分销商最好的培训以及服务保障。

4如果有条件,要建立完善的物流体系,确保分销商的顾客能及时收到产品。

以上四点,肯定不能全面概括一个独立B2C商城网站的所有运营之道,但在我看来,却是最重要的四点:SEO优化从百度带来海量的免费流量,社会化媒体塑造情感品牌提高转化率,大数据库提升客户的后续购买率,分销系统是获得快速发展的成功的商业模式。

以上就是关于浅析元数据在数据仓库中的应用:大数据仓库全部的内容,包括:浅析元数据在数据仓库中的应用:大数据仓库、如何正确建立大数据结构、如何用Navicat for Oracle 创建新数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9547705.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存