olap服务器和olap工具的区别

olap服务器和olap工具的区别,第1张

简写为OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或 *** 纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析 *** 作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方

微软SQLServer分析服务(SSAS)提供了一个用来创建和管理数据挖掘应用和在线分析处理系统的强大引擎,为了取得最佳的OLAP性能,你应该仔细的监测和优化OLAP数据库和潜在的关系数据源,本文介绍了监测SSAS和优化OLAP性能的工具。
SQLServer Profiler
你可以使用SQL ServerProfiler基于选择好的事件来捕获SSAS实例的活动,SQL Server
Profiler以跟踪的方式来捕获活动并且包含了一套满足最常见的跟踪捕获场景的预定义的模板,可以将跟踪到的信息保存到一个文件或者是一个允许你实时
监测数据的SSAS的数据库中,也可以实时的或者是一步一步的在同一个或者是另一个SSAS实例上重放跟踪,通过对跟踪进行重放,能够轻易地找到运行慢的
多维表达式,或者是MDXes,比较不同环境下的性能基准进行测试和调试,你也能够使用SQL Server
Profiler对安全进行审核,比如说,可以设置用来审核失败的链接尝试或者是一个用户试图访问一个未经授权的对象时许可失败的跟踪文件,关于如何创建
和运行跟踪的详细内容,请看为重放(分析服务)创建分析跟踪和分析服务跟踪事件。
系统监视器
监控本地和远程SSAS实例和 *** 作系统以及所运行的计算机性能的一个最常使用的工具是系统监视器,这是一个Windows性能的实用组件,提供了近
乎实时的仅被用来实时监控的性能信息,并且是被看作用来测量性能和识别硬件瓶颈的最好的工具之一,但是,你不能使用系统监视器来鉴定性能问题的原因,比如
说,系统监视器也许显示高的CPU使用率,但是不会标识出原因;你可以从一个位置使用系统监视器来监控多个计算机,对于每一个需要监控的系统来讲可以减少
资源占用,并且给了你一种直接比较不同计算机的性能统计的方法。
扩展事件和分析服务动态管理视图
扩展事件(XEvents)是一个对系统资源占用非常少的一个高伸缩性和轻量级性能监视系统的事件基础架构,使用XEvents,可以捕获针对所有

SSAS事件给到指定的用户,XEvents基础架构已经被直接集成到了SQLServer并且可以使用T-SQL简单的进行管理,更多的信息请看SQL
Server扩展事件。
分析服务动态管理视图(DMVs)是用来提供大量的关于分析服务实例状态和服务器健康信息的查询结构,使用这些信息能够诊断和调优分析服务实例或者是数据库性能,所有的DMVs都内置于$System中,关于使用DMVs监控分析服务的更多信息,请查看MSDN资源。
以上是用来监测SSAS和OLAP性能的工具,下面是优化OLAP应该考虑的地方。
使用索引
索引可以提高影响多维在线分析处理(MOLAP)分区处理速度和关系在线分析处理(ROLAP)分区查询速度的基础数据库的查询性能,大部分分析服
务数据库是只读的因此可以从索引中受益,一般的经验法则是创建覆盖所有分析服务执行的查询,另外,为了实现最佳的性能,你应该创建的所有索引应该使用
100%的填充因子。
在基础数据库中成本消耗会关系到使用的索引,比如,更新数据的查询(INSERT,
UPDATE或者DELETE)也一定会修改索引,因此,大量的索引会降低这些DML *** 作(INSERT,UPDATE or
DELETE)的性能,但是,这个不会影响到一个只读系统,另外,索引会占用时间和磁盘空间,最好的做法是使用SQL Server
Profiler和数据库引擎优化向导或者和索引相关的DMVs和动态管理函数DMFS定期的分析查询和索引的使用,这样能帮助你发现需要创建的索引以及
删除掉的索引。
选择适当的聚合
查询性能在很大程度上依赖于适当的聚合,但是没有必要在每一个维度的级别上添加聚合,当使用聚合设计向导(Aggregation Design
Wizard)或者是Usage-Based优化向导时,你应该从较低的值开始尝试不同的性能增益值,最初,当你提高了性能增益值时会注意到主要的查询速
度的提高,尽管性能增益值提高了,也常常会有收益递减,每一次性能的提升使得磁盘空间的增长逐步升级,你也能够使用搜索日志来存储用户查询以备为将来分析
使用,使用Usage-Based优化向导对查询日志数据优化聚合,你也能使用聚合设计向导创建适当的聚合,对于一个拥有较少或者是没有查询日志数据的新
的系统来讲聚合设计向导是非常有用的,而当一个系统成熟时Usage-Based优化向导会产生较好的结果。
使用主动缓存
为了在查询OLAP数据库时达到较快的效果,你必须使用MOLAP存储,但是,如果你使用了MOLAP,因为它是周期性的处理数据的,所以数据会有
一些延迟,为了获得最新的数据,你也必须使用ROLAP存储,但是ROLAP的存储性能要比MOLAP在查询响应方面明显的慢,那就是主动缓存配置选项很
有用的地方了,因为它允许分析服务可以从MOLAP和ROLAP两边检索,因此为使用了ROLAP的最新数据的MOLAP提供了效能,可以在MSDN资源
中发现更过的关于主动缓存的信息。

OLAP(联机分析处理)。
什么是联机分析处理(OLAP)
联机分析处理 (OLAP) 的概念最早是由关系数据库之父EFCodd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析 *** 作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。
OLTPOLAP用户 *** 作人员,低层管理人员决策人员,高级管理人员功能日常 *** 作处理分析决策DB 设计面向应用面向主题数据当前的, 最新的细节的, 二维的分立的历史的, 聚集的, 多维的集成的, 统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB 大小100MB-GB100GB-TB
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析 *** 作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。
·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。
·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。
MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。
还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。

我们都知道“瞎子摸象”的故事。不同的瞎子对大象的认识不同,因为他们只认识了自己摸到的地方。而企业如果要避免重犯这样的错误,那就离不开商务智能(BI)。专家认为,BI对于企业的重要性就像聪明才智对于个人的重要性。欧美企业的经验也证明,企业避免无知和一知半解危险的有效手段就是商务智能。商务智能旨在充分利用企业在日常经营过程中收集的大量数据和资料,并将它们转化为信息和知识来免除各种无知状态和瞎猜行为。
支持BI的开源工具数量众多,但是大多数的工具都是偏重某方面的。例如,CloverETL偏重ETL,JPivot偏重多维分析展现,Mondrian是OLAP服务器。而Bee、Pentaho和SpagoBI等项目则针对商务智能问题提供了完整的解决方案。

ETL 工具

ETL开源工具主要包括CloverETL和Octupus等。
(1)CloverETL是一个Java的ETL框架,用来转换结构化的数据,支持多种字符集之间的转换(如ASCII、UTF-8和ISO-8859-1等);支持JDBC,同时支持dBase和FoxPro数据文件;支持基于XML的转换描述。
(2)Octupus是一个基于Java的ETL工具,它也支持JDBC数据源和基于XML的转换定义。Octupus提供通用的方法进行数据转换,用户可以通过实现转换接口或者使用Jscript代码来定义转换流程。

OLAP服务器

(1)Lemur主要面向HOLAP,虽然采用C++编写,但是可以被其他语言的程序所调用。Lemur支持基本的 *** 作,如切片、切块和旋转等基本 *** 作。
(2)Mondrian面向ROLAP包含4层:表示层、计算层、聚集层、存储层。
● 表示层:指最终呈现在用户显示器上的以及与用户之间的交互,有许多方法来展现多维数据,包括数据透视表、饼、柱、线状图。
● 计算层:分析、验证、执行MDX查询。
● 聚集层:一个聚集指内存中一组计算值(cell),这些值通过维列来限制。计算层发送单元请求,如果请求不在缓存中,或者不能通过旋转聚集导出的话,那么聚集层向存储层发送请求。聚合层是一个数据缓冲层,从数据库来的单元数据,聚合后提供给计算层。聚合层的主要作用是提高系统的性能。
● 存储层:提供聚集单元数据和维表的成员。包括三种需要存储的数据,分别是事实数据、聚集和维。

OLAP客户端

JPivot是JSP风格的标签库,用来支持OLAP表,使用户可以执行典型的OLAP *** 作,如切片、切块、上钻、下钻等。JPivot使用Mondrian服务器,分析结果可以导出为Excel或PDF文件格式。

数据库管理系统

主要的开源工具包括MonetDB、MySQL、MaxDB和PostgreSQL等。这些数据库都被设计用来支持BI环境。MySQL、MaxDB和PostgreSQL均支持单向的数据复制。BizGres项目的目的在于使PostgreSQL成为数据仓库和BI的开源标准。BizGres为BI环境构建专用的完整数据库平台。

完整的BI开源解决方案

1Pentaho 公司的Pentaho BI 平台
它是一个以流程为中心的、面向解决方案的框架,具有商务智能组件。BI 平台是以流程为中心的,其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在 BI 平台上执行的商务智能流程。流程可以很容易被定制,也可以添加新的流程。BI 平台包含组件和报表,用以分析这些流程的性能。BI 平台是面向解决方案的,平台的 *** 作是定义在流程定义和指定每个活动的 action 文档里。这些流程和 *** 作共同定义了一个商务智能问题的解决方案。这个 BI 解决方案可以很容易地集成到平台外部的商业流程。一个解决方案的定义可以包含任意数量的流程和 *** 作。
BI平台包括一个 BI 框架、BI 组件、一个 BI 工作台和桌面收件箱。BI 工作台是一套设计和管理工具,集成到Eclipse环境。这些工具允许商业分析人员或开发人员创建报表、仪表盘、分析模型、商业规则和 BI 流程。Pentaho BI 平台构建于服务器、引擎和组件的基础之上,包括J2EE 服务器、安全与权限控制、portal、工作流、规则引擎、图表、协作、内容管理、数据集成、多维分析和系统建模等功能。这些组件的大部分是基于标准的,可使用其他产品替换之。

2ObjectWeb

该项目近日发布了SpagoBi 18版本。SpagoBi 是一款基于Mondrain+JProvit的BI方案,能够通过OpenLaszlo产生实时报表,为商务智能项目提供了一个完整开源的解决方案,它涵盖了一个BI系统所有方面的功能,包括:数据挖掘、查询、分析、报告、Dashboard仪表板等等。SpagoBI使用核心系统与功能模块集成的架构,这样在确保平台稳定性与协调性的基础上又保证了系统具有很强的扩展能力。用户无需使用SpagoBI的所有模块,而是可以只利用其中的一些模块。
SpagoBI使用了许多已有的开源软件,如Spago和Spagosi等。因此,SpagoBI集成了Spago的特征和技术特点,使用它们管理商务智能对象,如报表、OLAP分析、仪表盘、记分卡以及数据挖掘模型等。SpagoBI支持BI系统的监控管理,包括商务智能对象的控制、校验、认证和分配流程。SpagoBI采用Portalet技术将所有的BI对象发布到终端用户,因此BI对象就可以集成到为特定的企业需求而已经选择好的Portal系统中去。

3Bee项目

该项目是一套支持商务智能项目实施的工具套件,包括ETL工具和OLAP 服务器。Bee的ETL工具使用基于Perl的BEI,通过界面描述流程,以XML形式进行存储。用户必须对转换过程进行编码。Bee的ROLAP 服务器保证多通SQL 生成和强有力的高速缓存管理(使用MySQL数据库管理系统)。ROLAP服务器通过SOAP应用接口提供丰富的客户应用。Web Portal作为主要的用户接口,通过Web浏览器进行报表设计、展示和管理控制,分析结果可以以Excel、PDF、PNG、PowerPoint、text和XML等多种形式导出。

Bee项目的特点在于:
● 简单快捷的数据访问;
● 支持预先定义报表和实时查询;
● 通过拖拽方式轻松实现报表定制;
● 完整报表的轻松控制;
● 以表和图进行高质量的数据展示。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13498620.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-19
下一篇 2023-08-19

发表评论

登录后才能评论

评论列表(0条)

保存