如何用 python 构建一个简单的分布式系统

如何用 python 构建一个简单的分布式系统,第1张

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。
Django: Python Web应用开发框架
Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单的对象定义,它就能自动生成数据库结构、以及全功能的管理后台。
Diesel:基于Greenlet的事件I/O框架
Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。
Flask:一个用Python编写的轻量级Web应用框架
Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2
模板引擎。Flask也被称为“microframework”,因为它使用简单的核心,用extension增加其他功能。Flask没有默认使用的数
据库、窗体验证工具。
Cubes:轻量级Python OLAP框架
Cubes是一个轻量级Python框架,包含OLAP、多维数据分析和浏览聚合数据(aggregated data)等工具。
Kartographpy:创造矢量地图的轻量级Python框架
Kartograph是一个Python库,用来为ESRI生成SVG地图。Kartographpy目前仍处于beta阶段,你可以在virtualenv环境下来测试。
Pulsar:Python的事件驱动并发框架
Pulsar是一个事件驱动的并发框架,有了pulsar,你可以写出在不同进程或线程中运行一个或多个活动的异步服务器。
Web2py:全栈式Web框架
Web2py是一个为Python语言提供的全功能Web应用框架,旨在敏捷快速的开发Web应用,具有快速、安全以及可移植的数据库驱动的应用,兼容Google App Engine。
Falcon:构建云API和网络应用后端的高性能Python框架
Falcon是一个构建云API的高性能Python框架,它鼓励使用REST架构风格,尽可能以最少的力气做最多的事情。
Dpark:Python版的Spark
DPark是Spark的Python克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现,目前豆瓣内部的绝大多数数据分析都使用DPark完成,正日趋完善。
Buildbot:基于Python的持续集成测试框架
Buildbot是一个开源框架,可以自动化软件构建、测试和发布等过程。每当代码有改变,服务器要求不同平台上的客户端立即进行代码构建和测试,收集并报告不同平台的构建和测试结果。
Zerorpc:基于ZeroMQ的高性能分布式RPC框架
Zerorpc是一个基于ZeroMQ和MessagePack开发的远程过程调用协议(RPC)实现。和 Zerorpc 一起使用的 Service API 被称为 zeroservice。Zerorpc 可以通过编程或命令行方式调用。
Bottle: 微型Python Web框架
Bottle是一个简单高效的遵循WSGI的微型python Web框架。说微型,是因为它只有一个文件,除Python标准库外,它不依赖于任何第三方模块。
Tornado:异步非阻塞IO的Python Web框架
Tornado的全称是Torado Web Server,从名字上看就可知道它可以用作Web服务器,但同时它也是一个Python Web的开发框架。最初是在FriendFeed公司的网站上使用,FaceBook收购了之后便开源了出来。
webpy: 轻量级的Python Web框架
webpy的设计理念力求精简(Keep it simple and powerful),源码很简短,只提供一个框架所必须的东西,不依赖大量的第三方模块,它没有URL路由、没有模板也没有数据库的访问。
Scrapy:Python的爬虫框架
Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。

建议你直接看Excel中关于数据透视表的帮助“数据透视表和数据透视图概述”
文字内容参考如下:
Excel > 数据透视表和数据透视图 > 基础
数据透视表和数据透视图概述
全部显示
全部隐藏
使用数据透视表可以汇总、分析、浏览和提供摘要数据。使用数据透视图可以在数据透视表中可视化此摘要数据,并且可以方便地查看比较、模式和趋势。数据透视表和数据透视图都能使您做出有关企业中关键数据的决策。以下部分提供了数据透视表和数据透视图的概述。
本文内容
--------------------------------------------------------------------------------
关于数据透视表
处理数据透视表的方法
关于数据透视图
比较数据透视表和数据透视图
数据透视图与图表的区别
处理数据透视表源数据和数据透视图源数据
--------------------------------------------------------------------------------
关于数据透视表
数据透视表是一种可以快速汇总大量数据的交互式方法。使用数据透视表可以深入析数值数据,并且可以回答一些预计不到的数据问题。数据透视表是针对以下用途特别设计的:
以多种用户友好方式查询大量数据。
对数值数据进行分类汇总和聚合,按分类和子分类对数据进行汇总,创建自定义计算和公式。
展开或折叠要关注结果的数据级别,查看感兴趣区域摘要数据的明细。
将行移动到列或将列移动到行(或“透视”),以查看源数据的不同汇总。
对最有用和最关注的数据子集进行筛选、排序、分组和有条件地设置格式,使您能够关注所需的信息。
提供简明、有吸引力并且带有批注的联机报表或打印报表。
如果要分析相关的汇总值,尤其是在要合计较大的数字列表并对每个数字进行多种比较时,通常使用数据透视表。在下面所述的数据透视表中,您可以方便地看到单元格 F3 中第三季度高尔夫销售额是如何与其他运动或季度的销售额或总销售额进行比较的。
--------------------------------------------------------------------------------
在这种情况下,工作表中的源数据
数据透视表中第三季度高尔夫汇总的源值
整个数据透视表
源数据中 C2 和 C8 中源值的汇总
--------------------------------------------------------------------------------
在数据透视表中,源数据中的每列或每个字段都成为汇总多行信息的数据透视表字段。在上述示例中,“运动”列成为“运动”字段,高尔夫的每条记录在单个高尔夫项中进行汇总。
值字段(如“销售小计”)提供要汇总的值。上述报表中的单元格 F3 包含的“销售小计”值来自源数据中“运动”列包含“高尔夫”和“季度”列包含“第三季度”的每一行。默认情况下,值区域中的数据采用以下方式对数据透视图中的基本源数据进行汇总:数值使用 SUM 函数,文本值使用 COUNT 函数。
若要创建数据透视表,必须定义其源数据,在工作簿中指定位置,设置字段布局。有关详细信息,请参阅创建或删除数据透视表或数据透视图以及在数据透视表或数据透视图中创建和更改字段布局。
返回页首
处理数据透视表的方法
通过定义数据源、排列“数据透视表字段列表”中的字段以及选择初始布局来创建初始数据透视表后,在处理数据透视表时通常需要执行以下任务:
通过执行下列 *** 作浏览数据:
展开和折叠数据,并且显示值的基本明细。
对字段和项进行排序、筛选和分组。
更改汇总函数,并且添加自定义计算和公式。
通过执行下列 *** 作更改布局:
更改数据透视表形式:压缩、大纲或表格。
在其行上方或下方显示分类汇总。
将列字段移动到行区域或将行字段移动到列区域。
更改错误和空单元格的显示方式,并且更改没有数据的项和标签的显示方式。
更改字段或项的顺序以及添加、重新排列和删除字段。
刷新时调整列宽。
打开或关闭列和行字段标题,或者显示或隐藏空行。
通过执行下列 *** 作更改格式:
对单元格和区域进行手动和有条件格式设置。
更改整个数据透视表的格式样式。
更改字段的数字格式,并且包括 OLAP 服务器格式。
有关详细信息,请参阅 设计数据透视表的布局和格式。
返回页首
关于数据透视图
数据透视图以图形形式表示数据透视表 (数据透视表:一种交互的、交叉制表的 Excel 报表,用于对多种来源(包括 Excel 的外部数据)的数据(如数据库记录)进行汇总和分析。)中的数据。正如在数据透视表中那样,可以更改数据透视图的布局和数据。数据透视图通常有一个使用相应布局的相关联的数据透视表 (相关联的数据透视表:为数据透视图提供源数据的数据透视表。在新建数据透视图时,将自动创建数据透视表。如果更改其中一个报表的布局,另外一个报表也随之更改。)。两个报表中的字段相互对应。如果更改了某一报表的某个字段位置,则另一报表中的相应字段位置也会改变。
除具有标准图表的系列 (数据系列:在图表中绘制的相关数据点,这些数据源自数据表的行或列。图表中的每个数据系列具有唯一的颜色或图案。可以在图表中绘制一个或多个数据系列。饼图只有一个数据系列。)、分类、数据标记 (数据标记:图表中的条形、面积、圆点、扇面或其他符号,代表源于数据表单元格的单个数据点或值。图表中的相关数据标记构成了数据系列。)和坐标轴 (坐标轴:界定图表绘图区的线条,用作度量的参照框架。y 轴通常为垂直坐标轴并包含数据。x 轴通常为水平轴并包含分类。)以外,数据透视图还有一些与下图中所示的数据透视表对应的特殊元素。
--------------------------------------------------------------------------------
报表筛选字段
值字段
系列字段

分类字段
--------------------------------------------------------------------------------
报表筛选字段 用来根据特定项筛选数据的字段。在本例中,“区域”页字段显示所有区域的数据。若要显示单个区域的数据,可单击“(全部)”旁边的下拉箭头,然后选择区域。
使用报表筛选字段是在不修改系列和分类信息的情况下,汇总并快速集中处理数据子集的捷径。例如,如果正在进行演示,则可单击“年”报表筛选字段中的“(全部)”以显示所有年份的销售额,然后通过一次单击一个年份来集中分析特定年份的数据。对于不同年份,图表的每个报表筛选页都有相同分类和系列布局,因此可以很容易地对每一年的数据进行比较。另外,由于只允许您每次检索大数据集中的一个报表筛选页,因此,在图表使用外部源数据时,报表筛选字段可节省内存。
值字段 来自基本源数据 (源数据:用于创建数据透视表或数据透视图的数据清单或表。源数据可以来自 Excel 数据清单或区域、外部数据库或多维数据集,或者另一张数据透视表。)的字段,提供进行比较或计算的数据。在本例中,“销售总额”就是一个值字段,它用于汇总每项运动在各个地区的季度销售情况。第一个分类数据标记(第一季度)在坐标轴 (y) 上的值约为 250。该数值是第一季度网球、旅游、高尔夫球销售额的总和。根据报表使用的源数据,除了使用汇总函数 (汇总函数:是一种计算类型,用于在数据透视表或合并计算表中合并源数据,或在列表或数据库中插入自动分类汇总。汇总函数的例子包括 Sum、Count 和 Average。)外,还可使用 Average、Count 和 Product 等其他计算公式。
系列字段 数据透视图中为系列方向指定的字段。字段中的项提供单个数据系列。在本例中,“运动”系列字段包含三个项:网球、旅行和高尔夫球。在图表中,系列由图例表示。
项 项代表一个列或行字段中的唯一条目,且出现在报表筛选字段、分类字段和系列字段的下拉列表中。在本例中,“第一季度”、“第二季度”、“第三季度”和“第四季度”均是“季度”分类字段中的项,而“网球”、“旅行”和“高尔夫球”则是“运动”系列字段中的项。分类字段中的项在图表的分类轴上显示为标签。系列字段中的项列于图例中,并提供各个数据系列的名称。
分类字段 分配到数据透视图分类方向上的源数据中的字段。分类字段为那些用来绘图的数据点提供单一分类。在本例中,“季度”就是一个分类字段。在图表中,分类通常出现在图表的 x 轴或水平轴上。
自定义报表 可以更改图表类型和其他选项,如标题 (图表标题:图表标题是说明性的文本,可以自动与坐标轴对齐或在图表顶部居中。)、图例 (图例:图例是一个方框,用于标识为图表中的数据系列或分类指定的图案或颜色。)位置、数据标签 (数据标签:为数据标记提供附加信息的标签,数据标签代表源于数据表单元格的单个数据点或值。)、图表位置等。
首次创建数据透视表时,可以自动创建数据透视图,也可以通过现有的数据透视表创建数据透视图。有关详细信息,请参阅创建或删除数据透视表或数据透视图以及在数据透视表或数据透视图中创建和更改字段布局。
返回页首
比较数据透视表和数据透视图
通过数据透视表创建数据透视图时,数据透视图的布局(即数据透视图字段的位置)最初由数据透视表的布局确定。如果先创建数据透视图,则可将字段从“数据透视表字段列表”中拖到图表工作表 (图表工作表:工作簿中只包含图表的工作表。当希望单独查看图表或数据透视图(独立于工作表数据或数据透视表)时,图表工作表非常有用。)上的区域,这样就可确定图表的布局。
以下销售数据的数据透视表和数据透视图显示了二者之间的关系。
--------------------------------------------------------------------------------

报表筛选字段
值字段
一个行标签对应于一个分类字段
一个列标签对应于一个系列字段
--------------------------------------------------------------------------------
返回页首
数据透视图与图表的区别
如果您熟悉标准图表,就会发现数据透视图中的大多数 *** 作和标准图表中的一样。但是二者之间也存在以下差别:
交互 对于标准图表,您为要查看的每个数据视图创建一张图表,但它们不交互。而对于数据透视图,只要创建单张图表就可通过更改报表布局或显示的明细数据以不同的方式交互查看数据。
图表类型 标准图表的默认图表类型为簇状柱形图,它按分类比较值。数据透视图的默认图表类型为堆积柱形图,它比较各个值在整个分类总计中所占的比例。可以将数据透视图类型更改为除 XY 散点图、股价图和气泡图之外的其他任何图表类型。
图表位置 默认情况下,标准图表是嵌入 (嵌入图表:置于工作表中而不是单独的图表工作表中的图表。当要在一个工作表中查看或打印图表或数据透视图及其源数据或其他信息时,嵌入图表非常有用。)在工作表中。而数据透视图默认情况下是创建在图表工作表 (图表工作表:工作簿中只包含图表的工作表。当希望单独查看图表或数据透视图(独立于工作表数据或数据透视表)时,图表工作表非常有用。)上的。数据透视图创建后,还可将其重新定位到工作表上。
源数据 标准图表可直接链接到工作表单元格中。数据透视图可以基于相关联的数据透视表 (相关联的数据透视表:为数据透视图提供源数据的数据透视表。在新建数据透视图时,将自动创建数据透视表。如果更改其中一个报表的布局,另外一个报表也随之更改。)中的几种不同数据类型。
图表元素 数据透视图除包含与标准图表相同的元素外,还包括字段和项,可以添加、旋转或删除字段和项来显示数据的不同视图。标准图表中的分类、系列和数据分别对应于数据透视图中的分类字段、系列字段和值字段。数据透视图中还可包含报表筛选。而这些字段中都包含项,这些项在标准图表中显示为图例 (图例:图例是一个方框,用于标识为图表中的数据系列或分类指定的图案或颜色。)中的分类标签或系列名称。
格式 刷新 (刷新:更新数据透视表或数据透视图中的内容以反映基本源数据的变化。如果报表基于外部数据,则刷新将运行基本查询以检索新的或更改过的数据。)数据透视图时,会保留大多数格式(包括元素、布局和样式)。但是,不保留趋势线 (趋势线:趋势线以图形的方式表示数据系列的趋势,例如,向上倾斜的线表示几个月中增加的销售额。趋势线用于问题预测研究,又称为回归分析。)、数据标签 (数据标签:为数据标记提供附加信息的标签,数据标签代表源于数据表单元格的单个数据点或值。)、误差线 (误差线:通常用在统计或科学记数法数据中,误差线显示相对序列中的每个数据数据标记的潜在误差或不确定度。)及对数据系列的其他更改。标准图表只要应用了这些格式,就不会将其丢失。
移动或调整项的大小 在数据透视图中,即使可为图例选择一个预设位置并可更改标题的字体大小,但是无法移动或重新调整绘图区 (绘图区:在二维图表中,是指通过轴来界定的区域,包括所有数据系列。在三维图表中,同样是通过轴来界定的区域,包括所有数据系列、分类名、刻度线标志和坐标轴标题。)、图例、图表标题或坐标轴标题的大小。而在标准图表中,可移动和重新调整这些元素的大小。
返回页首
处理数据透视表源数据和数据透视图源数据
在创建数据透视表 (数据透视表:一种交互的、交叉制表的 Excel 报表,用于对多种来源(包括 Excel 的外部数据)的数据(如数据库记录)进行汇总和分析。)或数据透视图 (数据透视图:提供交互式数据分析的图表,与数据透视表类似。可以更改数据的视图,查看不同级别的明细数据,或通过拖动字段和显示或隐藏字段中的项来重新组织图表的布局。)时,可使用多种源数据 (源数据:用于创建数据透视表或数据透视图的数据清单或表。源数据可以来自 Excel 数据清单或区域、外部数据库或多维数据集,或者另一张数据透视表。)类型。
使用工作表数据
可以将 Microsoft Office Excel 工作表中的数据作为报表的数据来源。数据应为列表 (列表:包含相关数据的一系列行,或使用“创建列表”命令作为数据表指定给函数的一系列行。)格式,第一行包含列标签,其余行包含相同列中的类似项,并且数据区域中没有空白的行或列。Excel 将列标签作为报表的字段 (字段:在数据透视表或数据透视图中,来源于源数据中字段的一类数据。数据透视表具有行字段、列字段、页字段和数据字段。数据透视图具有系列字段、分类字段、页字段和数据字段。)名称。
使用命名区域 若要使报表的更新更易于进行,请为源区域命名一个名称 (名称:代表单元格、单元格区域、公式或常量值的单词或字符串。名称更易于理解,例如,“产品”可以引用难于理解的区域“Sales!C20:C30”。),并在创建报表时使用该名称。如果命名区域在扩展后包含了更多数据,则可以刷新 (刷新:更新数据透视表或数据透视图中的内容以反映基本源数据的变化。如果报表基于外部数据,则刷新将运行基本查询以检索新的或更改过的数据。)报表来包含新的数据。
Excel 表格 Excel 表格已经采用列表格式,因而是数据透视表源数据很好的候选者。当刷新数据透视表时,Excel 表格中的新的和更新的数据会自动包含在刷新 *** 作中。有关详细信息,请参阅 Excel 表格概述。
包含汇总 Excel 会在数据透视表中自动创建分类汇总和总计。如果源数据包含用“数据”选项卡上的“大纲”组中的“分类汇总”命令创建的自动分类汇总和总计,则可在创建报表前用该命令将分类汇总和总计删除。
使用外部数据源
要汇总和分析 Excel 的外部数据(如数据库中公司的销售记录),则可从包括数据库 (数据库:与特定主题或用途相关的数据的集合。在数据库内,关于特定实体的信息(如雇员或订单)分类归纳到表、记录和字段中。)、OLAP 多维数据集和文本文件的外部数据源上检索数据。
Office 数据连接文件 如果使用 Office 数据连接 (ODC) 文件 (odc) 检索报表的外部数据 (外部数据:存储在 Excel 之外的数据。例如,在 Access、dBASE、SQL Server 或 Web 服务器上创建的数据库。),则可直接将数据返回到数据透视表。ODC 文件是检索报表的外部数据的推荐方法。有关详细信息,请参阅连接(导入)外部数据、创建、编辑和管理与外部数据的连接以及连接属性。
OLAP 源数据 如果要检索 OLAP (OLAP:为查询和报表(而不是处理事务)而进行了优化的数据库技术。OLAP 数据是按分级结构组织的,它存储在多维数据集而不是表中。) 数据库或多维数据集 (多维数据集:一种 OLAP 数据结构。多维数据集包含维度,如“国家/地区)/省(或市/自治区)/市(或县)”,还包括数据字段,如“销售额”。维度将各种类型的数据组织到带有明细数据级别的分层结构中,而数据字段度量数量。)文件中的源数据,则数据只能作为数据透视表或已转换为工作表函数的数据透视表返回到 Excel。有关详细信息,请参阅连接到(导入)OLAP 数据库。
非 OLAP 源数据 这是数据透视表或数据透视图使用的基本数据,该数据来自 OLAP 数据库之外的源。这些源包括关系数据库和文本文件。
使用其他数据透视表
数据透视表缓存 每次在新建数据透视表或数据透视图时,Excel 均将报表数据的副本存储在内存中,并将其保存为工作簿文件的一部分。这样每张新的报表均需要额外的内存和磁盘空间。但是,如果将现有数据透视表作为同一个工作簿中的新报表的源数据,则两张报表就可以共享同一个数据副本。因为可以重新使用存储区,所以就会缩小工作簿文件,减少内存中的数据。
位置要求 如果要将某个数据透视表用作其他报表的源数据,则两个报表必须位于同一工作簿中。如果源数据透视表位于另一工作簿中,则需要将源报表复制到要新建报表的工作簿位置。不同工作簿中的数据透视表和数据透视图是独立的,它们在内存和工作簿文件中都有各自的数据副本。
更改会同时影响两个报表 在刷新 (刷新:更新数据透视表或数据透视图中的内容以反映基本源数据的变化。如果报表基于外部数据,则刷新将运行基本查询以检索新的或更改过的数据。)新报表中的数据时,Excel 也会更新源报表中的数据,反之亦然。如果对某个报表中的项进行分组或取消分组,那么也将同时影响两个报表。如果在某个报表中创建了计算字段 (计算字段:数据透视表或数据透视图中的字段,该字段使用用户创建的公式。计算字段可使用数据透视表或数据透视图中其他字段中的内容执行计算。)或计算项 (计算项:数据透视表字段或数据透视图字段中的项,该项使用用户创建的公式。计算项使用数据透视表或数据透视图中相同字段的其他项的内容进行计算。),则也将同时影响两个报表。
数据透视图 可根据其他的数据透视表创建新的数据透视表或数据透视图,但是不能直接根据其他数据透视图创建报表。不过,在创建数据透视图时,Excel 会根据同样的数据创建一个相关联的数据透视表 (相关联的数据透视表:为数据透视图提供源数据的数据透视表。在新建数据透视图时,将自动创建数据透视表。如果更改其中一个报表的布局,另外一个报表也随之更改。),因此可根据相关联的报表创建一个新的报表。对数据透视图的更改将影响相关联的数据透视表,反之亦然。
更改现有报表的源数据
更改源数据 (源数据:用于创建数据透视表或数据透视图的数据清单或表。源数据可以来自 Excel 数据清单或区域、外部数据库或多维数据集,或者另一张数据透视表。)将导致用于分析的数据也发生变化。例如,您可能希望方便地从测试数据库切换到生产数据库。可以通过刷新 (刷新:更新数据透视表或数据透视图中的内容以反映基本源数据的变化。如果报表基于外部数据,则刷新将运行基本查询以检索新的或更改过的数据。)报表,使用与原始数据连接信息类似的新数据来更新数据透视表或数据透视图。
要包含附加数据或其他数据,可以重新定义报表的源数据。如果这些数据与多数新字段或附加字段有很大差异,那么最好创建一个新的报表。有关详细信息,请参阅为数据透视表选择不同的源数据。
通过刷新显示新数据 刷新报表也会更改可显示的数据。对于基于工作表列表的报表,Excel 可在源区域或指定的名称 (名称:代表单元格、单元格区域、公式或常量值的单词或字符串。名称更易于理解,例如,“产品”可以引用难于理解的区域“Sales!C20:C30”。)区域中检索新字段。对于基于外部数据的报表,Excel 可检索符合基本查询 (查询:在 Query 或 Access 中,查询是一种查找记录的方法,而这些记录回答了用户对数据库中存储的数据提出的特定问题。)条件的新数据或可在 OLAP 多维数据集 (多维数据集:一种 OLAP 数据结构。多维数据集包含维度,如“国家/地区)/省(或市/自治区)/市(或县)”,还包括数据字段,如“销售额”。维度将各种类型的数据组织到带有明细数据级别的分层结构中,而数据字段度量数量。)中使用的数据。可在“字段列表”中查看任意新字段并将这些字段添加到报表中。有关详细信息,请参阅刷新连接(导入)的数据。
更改创建的 OLAP 多维数据集 基于 OLAP 数据的报表始终可以访问多维数据集中的所有数据。如果在服务器多维数据集中创建了一个包含数据子集的脱机多维数据集文件 (脱机多维数据集文件:创建于硬盘或网络共享位置上的文件,用于存储数据透视表或数据透视图的 OLAP 源数据。脱机多维数据集文件允许用户在断开与 OLAP 服务器的连接后继续进行 *** 作。),则可用“脱机 OLAP”命令来编辑多维数据集文件,这样它就会包含服务器的其他数据。有关详细信息,请参阅从 OLAP 服务器数据库创建脱机多维数据集文件。
返回页首

数据仓库系统的三个工具层数据仓库系统通常采用3层的体系结构,底层为数据仓库服务器,中间层为OLAP服务器,顶层为前端工具。具体如下:
1、数据源和数据的存储与管理部分可以统称为数据仓库服务器。
(1)数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息,等等。
(2)数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
2、OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
3、前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具,以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10770719.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-11
下一篇 2023-05-11

发表评论

登录后才能评论

评论列表(0条)

保存