大数据的分布式数据库技术的对比_sql

大数据技术的实现离不开很多其他的技术，我们提到最多的就是Hadoop技术，其实就目前而言，Hadoop技术看似是自成一套体系，其实并不是这样的，Hadoop和Spark以及分布式数据库其实也是存在差异的，我们就在这篇文章中给大家介绍一下这些内容。

首先我们说一说大数据分析，现在的大数据分析体系以Hadoop生态为主，而近年来逐渐火热的Spark技术也是主要的生态之一。可以这么说，Hadoop技术只能算是以HDFS+YARN作为基础的分布式文件系统，而不是数据库。我们提到的Hadoop的历史可以向前追溯10年，当年谷歌为了在几万台PC服务器上构建超大数据集合并提供极高性能的并发访问能力，从而发明了一种新的技术，而这个技术，也是Hadoop诞生的理论基础。如果我们从Hadoop的诞生背景可以看出，其主要解决的问题是超大规模集群下如何对非结构化数据进行批处理计算。实际上，在Hadoop架构中，一个分布式任务可以是类似传统结构化数据的关联、排序、聚集 *** 作，也可以是针对非结构化数据的用户自定义程序逻辑。

那么Hadoop的发展道路是什么样的呢。最开始的Hadoop以Big、Hive和MapReduce三种开发接口为代表，分别适用于脚本批处理、SQL批处理以及用户自定义逻辑类型的应用。而Spark的发展更是如此，最开始的SparkRDD几乎完全没有SQL能力，还是套用了Hive发展出的Shark才能对SQL有了一部分的支持。但是，随着企业用户对Hadoop的使用越发广泛，SQL已经渐渐成为大数据平台在传统行业的主要访问方式之一。

下面我们就说一说分布式数据库，分布式数据库有着悠久的历史，从以Oracle RAC为代表的联机交易型分布式数据库，到IBM DB2 DPF统计分析性分布式数据库，分布式数据库覆盖了OLTP与OLAP几乎全部的数据应用场景。而大部分分布式数据库功能集中在结构化计算与在线增删改查上。但是，这些传统的分布式数据库以数仓及分析类OLAP系统为主，其局限性在于，其底层的关系型数据库存储结构在效率上并不能满足大量高并发的数据查询以及大数据数据加工和分析的效率要求。因此，分布式数据库在近几年也有着极大的转型，从单一的数据模型向多模的数据模型转移，将OLTP、联机高并发查询以及支持大数据加工和分析结合起来，不再单独以OLAP作为设计目标。同时，分布式数据库在访问模式上也出现了K/V、文档、宽表、图等分支，支持除了SQL查询语言之外的其他访问模式，大大丰富了传统分布式数据库单一的用途。一般来说，多模数据库的主要目的是为了满足具有高性能要求的 *** 作型需求以及目标明确的数据仓库功能，而不是类似大数据深度学习等数据挖掘场景。这就是分布式数据库的实际情况。

我们在这篇文章中给大家介绍了大数据分析以及分布式数据库的相关知识，通过这些内容相信大家已经理解了其中的具体区别了吧，如果这篇文章能够帮助到大家这就是我们最大的心愿。

现在大数据是一个十分火热的技术，这也使得很多人都开始关注大数据的任何动态，因为大数据在某种程度上来说能够影响我们的生活。在这篇文章中我们就给大家介绍一下大数据的分布式数据库的发展趋势，希望这篇文章能够帮助大家更好理解大数据的分布式数据库的发展趋势。

其实不论是Hadoop还是分布式数据库，技术体系上两者都已经向着计算存储层分离的方式演进。对于Hadoop来说这一趋势非常明显，HDFS存储与YARN调度计算的分离，使得计算与存储均可以按需横向扩展。而分布式数据库近年来也在遵循类似的趋势，很多数据库已经将底层存储与上层的SQL引擎进行剥离。传统的XML数据库、OO数据库、与pre-RDBMS正在消亡；新兴领域文档类数据库、图数据库、Table-Style数据库与Multi-Model数据库正在扩大自身影响；传统关系型数据库、列存储数据库、内存分析型数据库正在考虑转型。可以看到，从技术完整性与成熟度来看，Hadoop确实还处于相对早期的形态。直到今天，很多技术在很多企业应用中需要大量的手工调优才能够勉强运行。同时，Hadoop的主要应用场景一直以来面向批处理分析型业务，传统数据库在线联机处理部分不是其主要的发展方向。同时Hadoop技术由于开源生态体系过于庞大，同时参与改造的厂商太多，使得用户很难完全熟悉整个体系，这一方面大大增加了开发的复杂度，提升了用户使用的难度，另一方面则是各个厂商之间维护不同版本，使得产品的发展方向可能与开源版本差别逐渐加大。

而分布式数据库领域经历了几十年的磨练，传统RDBMS的MPP技术早已经炉火纯青，在分类众多的分布式数据库中，其主要发展方向基本可以分为“分布式联机数据库”与“分布式分析型数据库”两种。对比Hadoop与分布式数据库可以看出，Hadoop的产品发展方向定位，与分布式数据库中列存储数据库相当重叠而在高并发联机交易场景，在Hadoop中除了HBase能够勉强沾边以外，分布式数据库则占据绝对的优势。目前，从Hadoop行业的发展来看，很多厂商而是将其定位改变为数据科学与机器学习服务商。因此，从商业模式上看以Hadoop分销的商业模式基本已经宣告结束，用户已经体验到维护整个Hadoop平台的困难而不愿被强迫购买整个平台。大量用户更愿意把原来Hadoop的部件拆开灵活使用，为使用场景和结果买单，而非平台本身买单。另外一个细分市场——非结构化小文件存储，一直以来都是对象存储、块存储，与分布式文件系统的主战场。如今，一些新一代数据库也开始进入该领域，可以预见在未来的几年中，小型非结构化文件存储也可能成为具备多模数据处理能力的分布式数据库的战场之一。

我们在这篇文章中给大家介绍了很多有关大数据分布数据库的发展前景，通过这篇文章我们不难发现数据库的发展是一个极其重要的内容，只有搭建分布式数据库，大数据才能够更好地为我们服务。

大数据，顾名思义，就是指大量数据。或称巨量资料。它是一种现代分析决策手段或方法。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。

分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10026565.html

大数据的分布式数据库技术的对比

发表评论

评论列表（0条）