如何使用Hadoop技术构建传统数仓_工具

基于企业级传统数据仓库应用的特点和要求，以及Hadoop技术的原理和特点，在使用Hadoop大数据平台实现传统数仓应用的过程中，需要关注和解决的关键问题有很多，本文主要列举在以下几个核心问题和解决思路：模型和SQL支持、海量数据的存储和高效计算、高并发查询、事务支持。

1、模型和SQL支持

模型方面，原量收系统模型设计原则是基于中国邮政整体企业管理和业务管理的规则和流程，同时考虑到系统的扩展。为了便于理解，整个模型先按照数据仓库典型方式划分为接口贴源层、逻辑层和汇总层。接口贴源层按照接口来源各个系统进行划分，系统模型和源系统模型基本保持一致；逻辑层和汇总层则按照主题域进行划分。接口层模型与源业务系统基本一致，结构简单，关联度相对较低，大部分源业务系统使用Oracle数据库。基础层模型结构相对复杂，关联度相对较高，系统使用Teradata数据库，汇总层模型结构相对简单，关联度低，系统使用Teradata数据库。

中国邮政大数据平台选用的底层产品全面支持Oracle数据表模型，支持大部分的Teradata模型。但在实践过程中，从Teradata数据库向Hadoop平台进行模型迁移时，还是有许多特殊语法需要进行修订，下图为Teradata语法与Hadoop平台语法的对比和转换关系举例：

表3-1 Teradata语法与Hadoop平台语法的对比和转换关系举例

SQL方面，系统的报表查询和ETL加工采用了大量的复杂SQL。

中国邮政大数据平台选用的底层产品支持99%的ANSI SQL2003语法，也支持Oracle PL/SQL，包括完整的数据类型、流程控制、Package、游标、异常处理以及动态SQL执行，可以支持迁移大部分的语法和脚本。但在实践过程中，从Teradata数据库向Hadoop平台进行SQL迁移时，还是有许多特殊语法需要进行针对性改进，下表为Hadoop平台不支持的语法和问题举例：

表3-2 Hadoop平台不支持的语法和问题举例

上述问题需要在开发过程中进行针对性的产品更新或代码更新

2、海量数据的存储和高效计算

中国邮政大数据平台汇集了中国邮政各大业务系统的历史业务数据，需要经过T+1的数据处理得到分析和计算结果进行展示。因此需要对海量数据进行存储，并提供高效的数据计算。

中国邮政大数据平台的底层数据产品通过内存计算技术、高效索引、执行计划优化和高度容错的技术，能够处理从TB的数据，并且在数据量级上都能提供比现有技术更快的性能。

底层平台基于Spark的分析引擎，从下往上包含三层架构，底层是分布式内存列式存储，可建在内存或者SSD上，中间层是Spark计算引擎层，最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库。因此可以分析存储在HDFS，HBase或者Holodesk分布式缓存中的数据，可以处理的数据量从GB到数十TB，即使数据源或者中间结果的大小远大于内存，也可高效处理。

同时，采用跨内存/闪存等介质的分布式混合列式存储，可用于缓存数据供Spark高速访问。小内存+SSD+磁盘的新方案可以提供跟大内存+磁盘的传统方案性能接近的交互式SQL分析能力。由于内存的价格是SSD的10倍，因此可以采用SSD来替代内存作为缓存，一方面可以增大分布式内存数据库Holodesk存储容量，另一方面可以降低成本，同时性能没有明显损失。

同时解决开源Spark在稳定性、可管理性和功能不够丰富上的问题。平台对Spark进行了大量的改进，极大提高了Spark功能和性能的稳定性。能稳定的运行724小时，并能在TB级规模数据上高效进行各种稳定的统计分析。

3、高并发查询

中国邮政大数据平台经过数据处理和汇总，为中国邮政各大业务板块各及机构提供数据报表和数据查询，用户数超过5万，并发数超过2千。因此需要解决高并查询的性能和效率问题。

中国邮政大数据平台的底层数据产品支持使用大表交互等一系列复杂的SQL分析语法 *** 作。同时支持多种索引，包括全局索引（Global Index）、局部索引（Local Index）、高维索引（High-dimensionalIndex）以及全文索引（Full-textIndex）等；支持通过SQL进行复杂条件毫秒级高并发查询。

主要通过使用索引来加快数据的查询速度。包括三种索引：本地索引、全局索引、全文索引，支持索引的自动创建（在创建表时指定索引），也支持对已有表创建索引。索引的基本设计思想是对表中的需要经常作为查询条件的列建立一个映射到主数据的索引。查询时可以利用索引特性进行快速定位并返回查询结果。实验证明，通过使用索引，用户查询的响应速度可以达到原来的20～100倍。同时支持全局、局部、高维索引和高级过滤器，，满足在线存储和在线业务分析系统(OLAP)的低延时需求，实现高并发低延时的OLAP查询。

NCR是一家上市美国公司的名字，Teradata是一款分布式数据库的名字，也曾经隶属于NCR公司，是从NCR中脱离出来的公司。基于Teradata的数据仓库在银行电信等行业应用很广泛，因为运用了分布式的多节点处理，海量数据处理速度很快。

DB2数据库为何在金融领域应用如此广泛？在我接触过的银行用户中，绝大部分都在使用IBM DB2数据库产品，当然还是有一大批证劵公司也在使用。给我印象最为深刻的一次是在深圳办的一场DB2技术专家沙龙，那次来的基本上都银行用户和证劵用户。当时，就在想，DB2数据库产品在金融领域应用咋那么广呢？

在开始这个讨论之前，我也问了一些朋友，问他们是什么原因导致了这一事实的发生，其中有人回答是历史原因，也有人回答是因为DB2数据库产品好。当然，众多金融客户选择DB2数据库产品，肯定是有各自的原因，历史原因也罢，功能强大、性能稳定也罢，肯定各有说词。不过我们可以想象一下，对于金融用户来说，每天所产生的数据都非常多，且复杂，而且这些数据都相当重要，来不到半点马虎。因此，他们在选择数据库产品的时候，自然是分外小心，不敢怠慢。另外，作为一家金融企业，在IT上的预算肯定也比较充足，所以产品的价格自然不是他们担心的问题（当然，这只是一种猜测！）。这样再分析原因的时候，我们就把重点放在了DB2数据库的性能和稳定性上。那么，究竟是不是了DB2数据库的性能和稳定性导致了它在金融领域的应用如此广泛呢，我不得而知！

针对这个‘DB2数据库为何在金融领域应用如此广泛？’的疑问，是一个值得我们思索的过程。但至于是什么真正的原因导致的，我这主题中就不详细聊了，因为我的答案都是来源于大家，只有有了大家的支持，这个答案才会日渐丰富，日渐完善。

DB2的并发性、稳定性、扩展性这些都做得不错，

金融行业很多业务是实时性交易很强的系统它们追求的是系统的稳定性，性能好，支持高并发、安全性高

所以选择ORACLE、DB2这类数据库等等

主要是用DB2 在用AIX系统本身兼容性又好吧这样稳定性更强，而且DB2 刚开始打开市场时是免费使用的

在金融行业，大家知道数据量大，数据复杂，更新频繁，把大量而且关系复杂的数据进行整合，二次加工，做个决策分析，这些工作的前提都是要有一个稳定高效的数据库。IBM DB2具有很好的安全性，数据可移植性，其他数据库数据可以移植过来，又善于处理关系复杂的数据，而且速度快，连接方式灵活，可通过 ODBC、JBDC、网络服务、本地客户机或异步客户机接口来实现，总之，相对其他数据库DB2具有明显的优势，正好符合银行的要求。

金融行业使用 DB2 可能是有其历史原因的，因为金融行业本身用 IBM 的主机就比较多：）

还是听金融行业的兄弟们站出来说句吧

大家好

在金融行业中，我想大部分的业务系统使用的是DB2，而绝大部分的经营分析系统用的是teradata，我所知道就有工行，建行，中行，光大，浦发，民生，邮政银行等等，IBM的产品一贯是安全性的代表，在银行交易数据极其重要的前提下，选择DB2是一个不错的选择，同时，DB2的大数据处理速度也仅次于teradata，另外很多银行的硬件选择了IBM的大机，自然iBM的软件产品也是他们考虑的重中之重，至于teradata，在成功实施了walmart，ebay等超大的数据仓库后，在入主中国也强势地拿下了近10省的移动的经分系统和移动集团公司的经分系统，同时又很成功的实施了上海证交所的DW，这些事实的确证明了他们是数据仓库行业的领导者，如果不缺钱，我相信选择teradata做构建EDW是一个不错的选择！

我认为主要有以下几点：

1、历史原因

金融行业对于数据安全和系统可用性要求很高，因此，选用IBM主机的颇多。而DB2最初就是建立在主机 *** 作系统上的，毫无疑问，是与IBM主机配合最好的数据库产品，所以自然就会选择DB2数据库。由于对DB2比较熟悉，在开放式系统上也就选择了DB2数据库。

2、IBM技术支持和售后服务做的很好，产品性价比较高

根据我个人的亲身体验，IBM能够根据客户的需求进行电话或者现场技术支持，能够根据客户要求参与项目建设，与ORACLE相比，售后服务价格相对较低。

3、产品自身为用户提供了较多的监控和分析工具，便于用户自己进行问题诊断和性能优化

大数据分析的未来图景：万物皆可分析

在云计算、大数据之后物联网成为新晋热点话题，物联网改变了我们看待世界的方法，改变了我们做业务的方法，甚至改变我们的生活方式。但是即使是最精通技术的企业也承认，从物联网生成的数据中获取价值非常困难，需要大量技巧。

Teradata认为的数据分析未来图景是“万物皆可分析”，所以在本次大会上也发布了Teradata Listener，其是一款具有实时“听取”功能的自助式智能软件，对客户而言可跟踪他们世界各地存放的多条传感器和物联网数据流，并将该数据传送到分析生态系统中的多个平台，使得我们能够在数据源的发生地就可以进行分析。

Teradata天睿公司大中华区首席执行官辛儿伦

同时Teradata也强调，在建设数据分析系统中，要避免数据孤岛。由于单一技术无法解决全面数据分析的需求，必须简化各种技术难度，创建统一生态数据管理系统。简化是非常重要的需求，任何数据分析系统都要使得架构简化。所以，在本次大会上，Teradata还更新了其统一数据架构（UDA），推出了在单一机箱内整合Teradata数据仓库、Teradata Aster Analytics和Hadoop系统，使用户能够在更小的数据中心空间内发挥整个分析生态系统管理的优势。

在本次大会上，ZDNet采访了Teradata天睿公司大中华区首席执行官辛儿伦，以下为访谈实录：

ZDNet：2015年的大会以Breaking Big为主题，请问其寓意是什么？这是否代表Teradata对于大数据认知在概念上的颠覆？

辛儿伦：Breaking Big这个主题，我理解最核心的应该是“打破束缚和限制”，不管是企业还是个人应该探索和追求“创新、差异化、勇气、重大进展和卓越表现。”

第一，在大数据时代，企业必须坚持创新和追求创新，不管技术上寻找突破，还是从业务流程、商业模式、组织架构、企业的分析文化上，都可进行积极的创新。例如，去年我们刚刚收购的Think Big公司，帮助我们增强对Hadoop的咨询、顾问和实施能力，以及与其它分析平台的交互能力。在本次大会上，我们刚宣布Think Big成为业内首个能够为Hadoop数据湖（数据资源池）提供全面的管理服务，这将帮助企业非常便利地创建数据分析的生态系统，确保数据质量、可靠性、实时性以及日常的运营任务。

我强调一下，我们的Think Big公司支持主要的Apache Hadoop，包括Cloudera、Hortonworks、MapR、Spark、Kafka、NoSQL以及其他开源技术，非常全面。而且更重要的是，我这里也是首次宣布，我们的Think Big业务已经确定引入到大中华区，目前已经在完成人员的配备。

第二，我觉得企业中在数据分析上的务实和积极进取的文化非常重要。其中，这个主题中提到“勇气”是企业实现大数据项目成功的重要保证。很多的企业，曾经面对大数据项目的投资犹豫、徘徊，其实这就需要更大的勇气支持。Teradata以及广大客户的反馈已经看到，我们是时候积极行动了。我们也理解，文化上的转变可能比技术和分析流程上的转变历时更久，但是我们一直强调，大数据从小做起，相信你也能很快看到大数据的价值，看到大数据分析在商业变革中带来的不可替代的驱动力。

ZDNet：每年的全球用户大会，Teradata都会发布业界注目的新产品。今年发布的产品中，您认为哪些是最具亮点的？

辛儿伦：今年，我们在大数据技术、开源技术的支持以及咨询服务上都有重要的更新和发布。这里，我特别强调一下，本次大会上最亮点的应该是针对物联网的传感器数据的分析能力，甚至实现了万物皆可分析（Analytics of Everything）。Teradata Listener技术能够通过整合开源技术，帮助客户分析物联网中不计其数的数据源，简化数据分析的难度。Teradata QueryGrid技术能在统一数据架构上快速有效地进行主题分析或查询多元化的大数据，以取得业务需要的信息。

同时，Teradata Aster新的版本能直接交互Hadoop数据资源池或数据仓库平台，帮助客户进行实时的数据探索，例如高效营销中进行客户路径和消费模式分析，等等

ZDNet：最近，Gartner发布了2016 年可能影响企业的十大技术趋势，其中万物信息化以及物联网等技术入选。在目前发展出现这些趋势之时，您怎们看技术的发展趋势？如果时间放长远一点，据您观察未来5年甚至10年，那些技术可能会成为影响企业比较显著的技术趋势？

辛儿伦：我们看到这些十大技术趋势，这些都是战略性大趋势，其中包括Information of Everything（万物信息化）以及物联网架构和平台。其实，我认为这不仅是趋势，而是新的IT现实。

关于万物信息化，可以理解为我们身处在一个数字网格之中，这个环境会产生、使用其产生的无计其数的信息。在这些数据和信息的海洋中，不管是企业还是个人，必须学会判断和识别哪些信息能够带来战略性的价值，掌握如何访问这些不同的数据源，并通过各种分析方法和算法找出其中的业务价值。

其实，这些预测也是真实IT现实的写照。实现万物皆联网或者信息化，最主要之一靠传感器技术。在我们目前生活的时代，传感器技术结合大规模并行处理能力，使我们能够测量并整体分析几乎所有现象。先进的仪器使我们能够跟踪万物的变化，例如天气变化模式、汽车驾驶习惯、乃至快餐店冰箱的温度、医院里（或家里）病人的生命体征。将这些数据采集至数据库，并运用广泛的统计、分析及可视化工具对这些数据进行细致的分析。

正是由于这些传感器，我们的生活、工作中产生了新的数据源。例如，通过射频识别读取器，我们能够进行零售库存跟踪与控制、医疗测试采样跟踪、预防欺诈行为等；通过GPS定位跟踪器，能够进行车队管理和交通运输和货运管理；通过数据采集传感器，我们就能在制造业、环境保护、交通运输系统中采集到实时的数据用于分析。

例如，西门子公司就通过部署Teradata技术提升其制造流程及产品质量。西门子首次实现了整合来自传感器、制造流程、机器生成数据，以及各种源系统的数据。西门子技术领域商业分析及监测总监Michael May博士对此说：“现在，我们可以更快、更有效地获得数据中的价值。把大数据转换为智能数据，我们将能够优化产品质量，为客户提供更加优质的服务。”

关于物联网我提两点：《2014－2015年中国物联网发展年度报告》中指出，物联网技术与云计算、大数据、移动互联网等新兴一代信息技术的协同创新进一步深化，与农业、制造业、服务业等传统产业，与新能源、新材料、先进制造业等新兴产业的“双向融合”不断加强。物联网加快向经济、社会、生活众多领域渗透，不断催生新变革、新应用和新业态。这些都是非常可喜的发展成绩。现在快速发展的物联网，以及未来的“万物皆联网”，任何人、事、物之间将能实现连接，这将带来沟通模式的变化、业务模式的变化，甚至发展模式的变化。

但是，我们更要强调，要想让物联网发挥出价值，企业必须对传感器数据进行整合和分析，并把分析结果利用到生产流程中来，而由大数据驱动的物联网才是有价值的物联。

由于物联网数据都是非结构化数据，这种JSON数据的分析都非常复杂。在今年5月，我们就宣布首次在同一数据库实现三大JSON数据格式的原生存储，这将为客户提供更强的查询性能。通过对Teradata数据库升级，能够帮助业务用户充分利用网页应用、传感器和物联网机器生成JSON数据的商业价值。而Teradata数据库具备分析JSON数据、 *** 作数据和历史业务数据的强大功能，而这一顶级查询性能使其成为物联网分析枢纽。此外，本次大会上发布的Teradata Listener是一款自助式智能软件，具有实时“听取”功能，可协助客户跟踪他们世界各地存放的多条传感器和物联网数据流，并将该数据传送到分析生态系统中的多个平台，这些都是巨大的技术突破。

针对未来更长时间的趋势预测，如果从更加宏观的角度看，我们先梳理一下整个IT 行业的发展，然后就能看到未来的发展趋势。过去从70或者80年代开始，对整个IT产业的关注，不管是产业给予的专注，还是IT供应商的专注，或是企业对于成立自己的IT部门的专注，更多的是一种小I大T的专注，什么叫小I大T？小的专注于Information能够体现的价值，而大量专注于运用用和研发Technology方面的议题。这就是小I大T，更多地认为IT就只是Technology这个课题，但是我们要注意IT不仅仅是Technology，IT是两个课题，是Information和Technology。

随着技术的发展，现在的技术能够承载的Information的价值度是迅速提升的，，未来更多的机会会更多在Information这个主题，延伸出来未来10年、20年、30年的前景。特别是未来这30年，这个时代将会是大I小T的时代，更多的主轴是在Information主题。，

ZDNet：从Teradata以及服务客户的经验看，如果让您建议一个企业要建立起自己的大数据战略，应该要去准备什么战略？

辛儿伦：首先建议客户要先问自身几个问题，那就是为什么要建立自己的大数据战略？是什么业务发展方向需要数据驱动型战略？。大数据战略要针对具体的业务场景，有了明确的业务场景目标，建设驾驭大数据的能力才有针对性性和使命感。

例如某企业要提升他的客户价值贡献度，希望建立起大数据战略，能够通过与客户的多种互动渠道的信息中获得洞察例如通过360度的统一客户视图等，在正确的时间、正确的地点、适当的方式，提供这位客户需要的服务或产品。又如金融机构通过建立起针对风险控制的大数据战略，能够发现和判断自己企业面对的风险以及危害程度，如担保圈分析等。如电信运营商可以通过建立针对客户服务品质优化的大数据战略，发现即将离网的用户等，提高自己的业务支持并挽留用户。

但是，在这里我要强调一点，数据驱动型战略不等同于数据收集战略，目前企业应尽量避免“存而不用”，建立大数据能力绝不是收集数据、存数据。

根据我们协助全球许多客户建设高效的大数据战略呢？，我想分享几个成功的关键：

第一，全面。企业需要采取宏观视角来识别构成高效体系的诸多不同要素，将不同的数据集（比如内部和外部数据流，或来自企业不同职能部门的信息）链接起来，通过关联分析，找出富有意义的信息。

第二，以业务为核心。针对大数据的战略规划应当以业务为导向，大数据战略并非科学项目，而是必须以满足实际的业务需求为核心。

第三，灵活。必须考虑到未来的使用情形，大数据战略和大数据分析方法论应避免常见的限制，比如过多地依赖于单一技术或单一平台模式或过于制式的流程等；由于数据驱动的转型不会一步到位或立刻传遍整个企业，因此在制定战略时，必须认识到价值是逐步创造出来的，并将整个演变过程考虑在内。

第四，有条理且可扩展。要确保大数据战略能够得到全面贯彻，而不是导致另一大群数据孤岛的产生。

第五，数据分析、科学决策。形成以分析为导向的思维方式，并培养真正的数据驱动文化。

以上是小编为大家分享的关于大数据分析的未来图景万物皆可分析的相关内容，更多信息可以关注环球青藤分享更多干货

- 数据库分类维度：关系型/非关系型、交易型/分析型

- NoSQL数据库的进一步分类

- OLTP市场规模：关系型数据库仍占营收大头

- 数据库市场份额：云服务和新兴厂商主导NoSQL

- 开源数据库 vs 商业数据库

- 数据库三大阵营：传统厂商和云服务提供商

最近由于时间原因我写东西少了，在公众号上也转载过几篇搞数据库朋友的大作。按说我算是外行，没资格在这个领域品头论足，而当我看到下面这份报告时立即产生了学习的兴趣，同时也想就能看懂的部分写点心得体会分享给大家。

可能本文比较适合普及性阅读，让数据库领域资深的朋友见笑了：）

数据库分类维度：关系型/非关系型、交易型/分析型

首先是分类维度，上图中的纵轴分类为Relational Database（关系型数据库，RDBMS）和Nonrelational Database （非关系型数据库，NoSQL），横轴的分类为Operational（交易型，即OLTP）和Analytical（分析型，即OLAP）。

按照习惯我们先看关系型数据库，左上角的交易型类别中包括大家熟悉的商业数据库Oracle、MS SQL Server、DB2、Infomix，也包括开源领域流行的MySQL（MariaDB是它的一个分支）、PostgreSQL，还有云上面比较常见的SQL Azure和Amazon Aurora等。

比较有意思的是，SAP HANA正好位于交易型和分析型的中间分界处，不要忘了SAP还收购了Sybase，尽管后者今天不够风光了，而早年微软的SQL Server都是来源于Sybase。Sybase的ASE数据库和分析型Sybase IQ还是存在的。

右上角的分析型产品中包括几款知名的列式数据仓库Pivotal Greenplum、Teradata和IBM Netezza（已宣布停止支持），来自互联网巨头的Google Big Query和Amazon RedShift。至于Oracle Exadata一体机，它上面运行的也是Oracle数据库，其最初设计用途是OLAP，而在后来发展中也可以良好兼顾OLTP，算是一个跨界产品吧。

再来看非关系型数据库，左下角的交易型产品中，有几个我看着熟悉的MongoDB、Redis、Amazon DynamoDB和DocumentDB等；右下角的分析型产品包括著名的Hadoop分支Cloudera、Hortonworks（这2家已并购），Bigtable（来自Google，Hadoop中的HBase是它的开源实现）、Elasticsearch等。

显然非关系型数据库的分类要更加复杂，产品在应用中的差异化也比传统关系型数据库更大。Willian Blair很负责任地对它们给出了进一步的分类。

NoSQL数据库的进一步分类

上面这个图表应该说很清晰了。非关系型数据库可以分为Document-based Store（基于文档的存储）、Key-Value Store（键值存储）、Graph-based（图数据库）、Time Series（时序数据库），以及Wide Cloumn-based Store（宽列式存储）。

我们再来看下每个细分类别中的产品：

文档存储 ：MongoDB、Amazon DocumentDB、Azure Cosmos DB等

Key-Value存储 ：Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike等

图数据库 ：Neo4j等

时序数据库 ：InfluxDB等

WideCloumn ：DataStax、Cassandra、Apache HBase和Bigtable等

多模型数据库 ：支持上面不只一种类别特性的NoSQL，比如MongoDB、Redis Labs、Amazon DynamoDB和Azure Cosmos DB等。

OLTP市场规模：关系型数据库仍占营收大头

上面这个基于IDC数据的交易型数据库市场份额共有3个分类，其中深蓝色部分的关系型数据库（RDBMS，在这里不统计数据挖掘/分析型数据库）占据80%以上的市场。

Dynamic Database（DDMS，动态数据库管理系统，同样不统计Hadoop）就是我们前面聊的非关系型数据库。这部分市场显得小（但发展势头看好），我觉得与互联网等大公司多采用开源+自研，而不买商业产品有关。

而遵循IDC的统计分类，在上图灰色部分的“非关系型数据库市场”其实另有定义，参见下面这段文字：

数据库市场份额：云服务和新兴厂商主导NoSQL

请注意，这里的关系型数据库统计又包含了分析型产品。Oracle营收份额42%仍居第一，随后排名依次为微软、IBM、SAP和Teradata。

代表非关系型数据库的DDMS分类中（这里同样加入Hadoop等），云服务和新兴厂商成为了主导，微软应该是因为云SQL Server的基础而小幅领先于AWS，这2家一共占据超过50%的市场，接下来的排名是Google、Cloudera和Hortonworks（二者加起来13%）。

上面是IDC传统分类中的“非关系型数据库”，在这里IBM和CA等应该主要是针对大型机的产品，InterSystems有一款在国内医疗HIS系统中应用的Caché数据库（以前也是运行在Power小机上比较多）。我就知道这些，余下的就不瞎写了。

开源数据库 vs 商业数据库

按照流行度来看，开源数据库从2013年到现在一直呈现增长，已经快要追上商业数据库了。

商业产品在关系型数据库的占比仍然高达605%，而上表中从这列往左的分类都是开源占优：

Wide Cloumn：开源占比818%；

时序数据库：开源占比807%；

文档存储：开源占比800%；

Key-Value存储：开源占比722%；

图数据库：开源占比684%；

搜索引擎：开源占比653%

按照开源License的授权模式，上面这个三角形越往下管的越宽松。比如MySQL属于GPL，在互联网行业用户较多；而PostgreSQL属于BSD授权，国内有不少数据库公司的产品就是基于Postgre哦。

数据库三大阵营：传统厂商和云服务提供商

前面在讨论市场份额时，我提到过交易型数据库的4个巨头仍然是Oracle、微软、IBM和SAP，在这里William Blair将他们归为第一阵营。

随着云平台的不断兴起，AWS、Azure和GCP（Google Cloud Platform）组成了另一个阵营，在国外分析师的眼里还没有BAT，就像有的朋友所说，国内互联网巨头更多是自身业务导向的，在本土发展公有云还有些优势，短时间内将技术输出到国外的难度应该还比较大。（当然我并不认为国内缺优秀的DBA和研发人才）

第三个阵容就是规模小一些，但比较专注的数据库玩家。

接下来我再带大家简单过一下这前两个阵容，看看具体的数据库产品都有哪些。

甲骨文的产品，我相对熟悉一些的有Oracle Database、MySQL以及Exadata一体机。

IBM DB2也是一个庞大的家族，除了传统针对小型机、x86（好像用的人不多）、z/OS大型机和for i的版本之外，如今也有了针对云和数据挖掘的产品。记得抱枕大师对Informix的技术比较推崇，可惜这个产品发展似乎不太理想。

微软除了看家的SQL Server之外，在Azure云上还能提供MySQL、PostgreSQL和MariaDB开源数据库。应该说他们是传统软件License+PaaS服务两条腿走路的。

如今人们一提起SAP的数据库就想起HANA，之前从Sybase收购来的ASE（Adaptive Server Enterprise）和IQ似乎没有之前发展好了。

在云服务提供商数据库的3巨头中，微软有SQL Server的先天优势，甚至把它移植到了Linux拥抱开源平台。关系型数据库的创新方面值得一提的是Amazon Aurora和Google Spanner（也有非关系型特性），至于它们具体好在哪里我就不装内行了：）

非关系型数据库则是Amazon全面开花，这与其云计算业务发展早并且占据优势有关。Google当年的三篇经典论文对业界影响深远，Yahoo基于此开源的Hadoop有一段时间几乎是大数据的代名词。HBase和Hive如今已不再是人们讨论的热点，而Bigtable和BigQuery似乎仍然以服务Google自身业务为主，毕竟GCP的规模比AWS要小多了。

最后这张DB-Engines的排行榜，相信许多朋友都不陌生，今年3月已经不是最新的数据，在这里列出只是给大家一个参考。该排行榜几乎在每次更新时，都会有国内数据库专家撰写点评。

以上是我周末的学习笔记，班门弄斧，希望对大家有帮助。

参考资料《Database Software Market:The Long-Awaited Shake-up》

以上就是关于如何使用Hadoop技术构建传统数仓全部的内容，包括:如何使用Hadoop技术构建传统数仓、ncr teradata是什么、数据库在金融行业中的应用等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9769274.html

如何使用Hadoop技术构建传统数仓

发表评论

评论列表（0条）