如何使用Hadoop技术构建传统数仓

如何使用Hadoop技术构建传统数仓,第1张

基于企业级传统数据仓库应用的特点和要求,以及Hadoop技术的原理和特点,在使用Hadoop大数据平台实现传统数仓应用的过程中,需要关注和解决的关键问题有很多,本文主要列举在以下几个核心问题和解决思路:模型和SQL支持、海量数据的存储和高效计算、高并发查询、事务支持。

1、模型和SQL支持

模型方面,原量收系统模型设计原则是基于中国邮政整体企业管理和业务管理的规则和流程,同时考虑到系统的扩展。为了便于理解,整个模型先按照数据仓库典型方式划分为接口贴源层、逻辑层和汇总层。接口贴源层按照接口来源各个系统进行划分,系统模型和源系统模型基本保持一致;逻辑层和汇总层则按照主题域进行划分。接口层模型与源业务系统基本一致,结构简单,关联度相对较低,大部分源业务系统使用Oracle数据库。基础层模型结构相对复杂,关联度相对较高,系统使用Teradata数据库,汇总层模型结构相对简单,关联度低,系统使用Teradata数据库。

中国邮政大数据平台选用的底层产品全面支持Oracle数据表模型,支持大部分的Teradata模型。但在实践过程中,从Teradata数据库向Hadoop平台进行模型迁移时,还是有许多特殊语法需要进行修订,下图为Teradata语法与Hadoop平台语法的对比和转换关系举例:

表3-1 Teradata语法与Hadoop平台语法的对比和转换关系举例

SQL方面,系统的报表查询和ETL加工采用了大量的复杂SQL。

中国邮政大数据平台选用的底层产品支持99%的ANSI SQL2003语法,也支持Oracle PL/SQL,包括完整的数据类型、流程控制、Package、游标、异常处理以及动态SQL执行,可以支持迁移大部分的语法和脚本。但在实践过程中,从Teradata数据库向Hadoop平台进行SQL迁移时,还是有许多特殊语法需要进行针对性改进,下表为Hadoop平台不支持的语法和问题举例:

表3-2 Hadoop平台不支持的语法和问题举例

上述问题需要在开发过程中进行针对性的产品更新或代码更新

2、海量数据的存储和高效计算

中国邮政大数据平台汇集了中国邮政各大业务系统的历史业务数据,需要经过T+1的数据处理得到分析和计算结果进行展示。因此需要对海量数据进行存储,并提供高效的数据计算。

中国邮政大数据平台的底层数据产品通过内存计算技术、高效索引、执行计划优化和高度容错的技术,能够处理从TB的数据,并且在数据量级上都能提供比现有技术更快的性能。

底层平台基于Spark的分析引擎,从下往上包含三层架构,底层是分布式内存列式存储,可建在内存或者SSD上,中间层是Spark计算引擎层,最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库。因此可以分析存储在HDFS,HBase或者Holodesk分布式缓存中的数据,可以处理的数据量从GB到数十TB,即使数据源或者中间结果的大小远大于内存,也可高效处理。

同时,采用跨内存/闪存等介质的分布式混合列式存储,可用于缓存数据供Spark高速访问。小内存+SSD+磁盘的新方案可以提供跟大内存+磁盘的传统方案性能接近的交互式SQL分析能力。由于内存的价格是SSD的10倍,因此可以采用SSD来替代内存作为缓存,一方面可以增大分布式内存数据库Holodesk存储容量,另一方面可以降低成本,同时性能没有明显损失。

同时解决开源Spark在稳定性、可管理性和功能不够丰富上的问题。平台对Spark进行了大量的改进,极大提高了Spark功能和性能的稳定性。能稳定的运行7*24小时,并能在TB级规模数据上高效进行各种稳定的统计分析。

3、高并发查询

中国邮政大数据平台经过数据处理和汇总,为中国邮政各大业务板块各及机构提供数据报表和数据查询,用户数超过5万,并发数超过2千。因此需要解决高并查询的性能和效率问题。

中国邮政大数据平台的底层数据产品支持使用大表交互等一系列复杂的SQL分析语法 *** 作。同时支持多种索引,包括全局索引(Global Index)、局部索引(Local Index)、高维索引(High-dimensionalIndex)以及全文索引(Full-textIndex)等;支持通过SQL进行复杂条件毫秒级高并发查询。

主要通过使用索引来加快数据的查询速度。包括三种索引:本地索引、全局索引、全文索引,支持索引的自动创建(在创建表时指定索引),也支持对已有表创建索引。索引的基本设计思想是对表中的需要经常作为查询条件的列建立一个映射到主数据的索引。查询时可以利用索引特性进行快速定位并返回查询结果。实验证明,通过使用索引,用户查询的响应速度可以达到原来的20~100倍。同时支持全局、局部、高维索引和高级过滤器,,满足在线存储和在线业务分析系统(OLAP)的低延时需求,实现高并发低延时的OLAP查询。

大数据分析技术生态圈一览

大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。

这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。

Platfora

这是一款大数据发现和分析平台。

Qlikview

这是一款引导分析平台。

Sisense

这是一款商业智能软件,专门处理复杂数据的商业智能解决方案。

Sqream

这是一款快速、可扩展的大数据分析SQL数据库。

Splunk

这是一款运维智能平台。

Sumologic

这是一项安全的、专门定制的、基于云的机器数据分析服务。

Actian

这是一款大数据分析平台。

亚马逊Redshift

这是一项PB级云端数据仓库服务。

CitusData

可扩展PostgreSQL。

Exasol

这是一种用于分析数据的大规模并行处理(MPP)内存数据库。

惠普Vertica

这是一款SQL on Hadoop大数据分析平台。

Mammothdb

这是一款与SQL兼容的MPP分析数据库。

微软SQL Server

这是一款关系数据库管理系统。

甲骨文Exadata

这是一款计算和存储综合系统,针对甲骨文数据库软件进行了优化。

SAP HANA

这是一款内存计算平台。

Snowflake

这是一款云数据仓库。

Teradata

这是企业级大数据分析和服务。

数据探查

Apache Drill

这是一款无数据库模式的SQL查询引擎,面向Hadoop、NoSQL和云存储。

Cloudera Impala

这是一款开源大规模并行处理SQL查询引擎。

谷歌BigQuery

这是一项全面托管的NoOps数据分析服务。

Presto

这是一款面向大数据的分布式SQL查询引擎。

Spark

这是一款用于处理大数据的快速通用引擎。

平台/基础设施

亚马逊网络服务(AWS)

提供云计算服务

思科云

提供基础设施即服务

Heroku

为云端应用程序提供平台即服务

Infochimps

提供云服务的大数据解决方案

微软Azure

这是一款企业级云计算平台。

Rackspace

托管专业服务和云计算服务

Softlayer(IBM)

提供云基础设施即服务

数据基础设施

Cask

这是一款面向Hadoop解决方案的开源应用程序平台。

Cloudera

提供基于Hadoop的软件、支持和服务。

Hortonworks

管理HDP――这是一款开源企业Apache Hadoop数据平台。

MAPR

这是面向大数据部署环境的Apache Hadoop技术。

垂直领域应用/数据挖掘

Alpine Data Labs

这是一种高级分析平台,可处理Apache Hadoop和大数据。

R

这是一种免费软件环境,可处理统计计算和图形。

Rapidminer

这是一款开源预测分析平台

SAS

这是一款软件套件,可以挖掘、改动、管理和检索来自众多数据源的数据。

提取、转换和加载(ETL)

IBM Datastage

使用一种高性能并行框架,整合多个系统上的数据。

Informatica

这是一款企业数据整合和管理软件。

Kettle-Pentaho Data Integration

提供了强大的提取、转换和加载(ETL)功能。

微软SSIS

这是一款用于构建企业级数据整合和数据转换解决方案的平台。

甲骨文Data Integrator

这是一款全面的数据整合平台。

SAP

NetWeaver为整合来自各个数据源的数据提供了灵活方式。

Talend

提供了开源整合软件产品

Cassandra

这是键值数据库和列式数据库的混合解决方案。

CouchBase

这是一款开源分布式NoSQL文档型数据库。

Databricks

这是使用Spark的基于云的大数据处理解决方案。

Datastax

为企业版的Cassandra数据库提供商业支持。

IBM DB2

这是一款可扩展的企业数据库服务器软件。

MemSQL

这是一款分布式内存数据库。

MongoDB

这是一款跨平台的文档型数据库。

MySQL

这是一款流行的开源数据库。

甲骨文

这是一款企业数据库软件套件。

PostgresSQL

这是一款对象关系数据库管理系统。

Riak

这是一款分布式NoSQL数据库。

Splice Machine

这是一款Hadoop关系数据库管理系统。

VoltDB

这是一款内存NewSQL数据库。

Actuate

这是一款嵌入式分析和报表解决方案。

BiBoard

这是一款交互式商业智能仪表板和可视化工具。

Chart.IO

这是面向数据库的企业级分析工具。

IBM Cognos

这是一款商业智能和绩效管理软件。

D3.JS

这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。

Highcharts

这是面向互联网的交互式JavaScirpt图表。

Logi Analytics

这是自助服务式、基于Web的商业智能和分析应用软件。

微软Power BI

这是交互式数据探查、可视化和演示工具。

Microstrategy

这是一款企业商业智能和分析软件。

甲骨文Hyperion

这是企业绩效管理和商业智能系统。

Pentaho

这是大数据整合和分析解决方案。

SAP Business Objects

这是商业智能解决方案。

Tableau

这是专注于商业智能的交互式数据可视化产品系列。

Tibco Jaspersoft

这是商业智能套件。

IBM

老牌大数据企业,从微软时代过来的核心,是全球最大的信息技术和业务解决方案公司。

2. 惠普

会最为知名的是它的Vertical分析平台,而且在2012年的营收中排名第二,当之无愧的老牌商业数据库品牌。

3. Teradata

凭借自身硬件和数据库而声名远播。

4. 甲骨文

在数据库领域,甲骨文一直都是鼎鼎大名的存在,而且它也是大数据领域最大的几个玩家之一。

5. SPA

在商业数据中,SPA推出了最为知名的HANA内存内数据库

6. EMC

EMC 的主要业务时帮助客户保存并分析大数据,另外也充当着大数据分析智囊营销科学实验室的所在地,它们专门分析营销类数据。

7. Amazon

时至今日,Amazon 已经成为了全球大数据领域当之无愧的王者,这一切源于它的CEO贝索斯的远见与无与伦比的魄力

8. 微软

微软在数据方面有着雄厚的实力和强大的野心,它的商业数据业务也在蓬勃发展

9. 谷歌

作为全球搜索业务的老大,谷歌旗下的大数据平台凭借其身后的技术积累,成为商业数据领域内一股不可小觑的力量。

10. VMware

VMware向来以云计算虚拟化解决方案著称


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6731135.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-27
下一篇 2023-03-27

发表评论

登录后才能评论

评论列表(0条)

保存