Hadoop生态系统-新手快速入门（含HDFS、HBase系统架构）_工具

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

广义的Hadoop，一般称为Hadoop生态系统，如下所示。

Hadoop生态系统中这些软件的作用：

HDFS 采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（NameNode）和若干个数据节点（DataNode）。

HDFS采用Java语言开发，因此任何支持JVM的机器都可以部署名称节点和数据节点。

在配置好Hadoop 集群之后，可以通过浏览器访问 >

关系型资料库与Hadoop的本质区别在什么地方

两者的思路是一样，都是分散式并行处理。本质肯定一样，不同的是应用场景不一样：

1、hadoop是个轻量级的产品，又是开源的，不像dpf那么复杂，还要购买商业软体，搭个DPF环境需要费挺大力气的。

2、hadoop能处理半结构化，非结构化资料。

但hadoop要写map reduce函式，这个比起SQL来，方便灵活性差太多了。。。

在处理结构化资料方面，个人觉得MPP的资料库效能其实不会比hadoop差，只是一提起MPP大家就会想到要伺服器，外部储存，光纤网路，还要做很好的规划，觉得成本很高，所以都去追捧hadoop去了：）

参考：:itpub/thread-1566914-1-1

这完全是两个东西啊！一个是资料库，一个是分散式系统基础架构，两个没有可比性吧！

我猜你想问的应该是hadoop的hbase这个nosql与关系型资料库的区别吧！

:zhihu/question/20059632

一般来说，关系型资料库都拿来做高效响应即时查询。但在大资料离线分析上比较弱。而hadoop很适合拿来做大资料离线分析。

面试题关系型资料库和非关系型资料库的区别

索引实际上是一组指向表中资料的指标,索引的排列顺序其实就是这组指标的顺序聚集索引:表的物理储存顺序与指标(即逻辑)顺序相同非聚集索引:物理与逻辑顺序不同因为一个表只能有一个物理顺序,所以,聚集索引的个数最多只能是1其中唯一索引是给所做的索引增加了唯一性的约束,新增,修改索引列中资料时,不允许出现重复值它可以是聚集索引,也可以是非聚集的。主键不允许有NULL，唯一索引可以。但是唯一索引只允许一个NULL。主键索引是把主键列定义为索引,主键具有唯一性,所以主键索引是唯一索引的一种特殊形式

关系型和非关系型资料库的区别

非关系型资料库的实质：非关系型资料库产品是传统关系型资料库的功能版本，通过减少用不到或很少用的功能，来大幅度提高产品效能。

关系式资料结构把一些复杂的资料结构归结为简单的 二元关系(即二维表格形式) 。

非关系型资料库通常分为层次式资料库、网路式资料库。按照 网状资料结构 建立的资料库系统称为网状资料库系统。用数学方法可将网状资料结构转化为层次资料结构。

层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。

当前主流的关系型资料库有Oracle、DB2、Microsoft SQL Server、Microsoft Aess、MySQL等。

非关系型资料库有 NoSql、Cloudant。

nosql和关系型资料库比较？

优点：

1）成本：nosql资料库简单易部署，基本都是开源软体，不需要像使用oracle那样花费大量成本购买使用，相比关系型资料库价格便宜。

2）查询速度：nosql资料库将资料储存于快取之中，关系型资料库将资料储存在硬碟中，自然查询速度远不及nosql资料库。

3）储存资料的格式：nosql的储存格式是key,value形式、文件形式、形式等等，所以可以储存基础型别以及物件或者是集合等各种格式，而资料库则只支援基础型别。

4）扩充套件性：关系型资料库有类似join这样的多表查询机制的限制导致扩充套件很艰难。

缺点：

1）维护的工具和资料有限，因为nosql是属于新的技术，不能和关系型资料库10几年的技术同日而语。

2）不提供对sql的支援，如果不支援sql这样的工业标准，将产生一定使用者的学习和使用成本。

3）不提供关系型资料库对事物的处理。

hbase和关系型资料库的区别

Mongodb用于储存非结构化资料，尤其擅长储存json格式的资料。储存的量大概在10亿级别，再往上效能就下降了，除非另外分库。

Hbase是架构在hdfs上的列式储存，擅长rowkey的快速查询，但模糊匹配查询（其实是前模糊或全模糊）不擅长，但储存的量可以达到百亿甚至以上，比mongodb的储存量大多了。

关系型资料库与实时型资料库有什么区别？

■关系资料库 facts and information

关系资料库是建立在集合代数基础上，应用数学方法来处理资料库中的资料。现实世界中的各种实体以及实体之间的各种联络均用关系模型来表示。

关系模型由关系资料结构、关系 *** 作集合、关系完整性约束三部分组成。

全关系系统十二准则

全关系系统应该完全支援关系模型的所有特征。关系模型的奠基人EFCodd具体地给出了全关系系统应遵循的基本准则。

;''准则0'' : 一个关系形的关系资料库系统必须能完全通过它的关系能力来管理资料库。

;''准则1'' 资讯准则 : 关系资料库系统的所有资讯都应该在逻辑一级上用表中的值这一种方法显式的表示。

;''准则2'' 保证访问准则 : 依靠表名、主码和列名的组合，保证能以逻辑方式访问关系资料库中的每个资料项。

;''准则3'' 空值的系统化处理 : 全关系的关系资料库系统支援空值的概念，并用系统化的方法处理空值。

;''准则4'' 基于关系模型的动态的联机资料字典 : 资料库的描述在逻辑级上和普通资料采用同样的表述方式。

;''准则5'' 统一的资料子语言 :

一个关系资料库系统可以具有几种语言和多种终端访问方式，但必须有一种语言，它的语句可以表示为严格语法规定的字串，并能全面的支援各种规则。

;''准则6'' 检视更新准则 : 所有理论上可更新的检视也应该允许由系统更新。

;''准则7'' 高阶的插入、修改和删除 *** 作 : 系统应该对各种 *** 作进行查询优化。

;''准则8'' 资料的物理独立性 : 无论资料库的资料在储存表示或存取方法上作任何变化，应用程式和终端活动都保持逻辑上的不变性。

;''准则9'' 资料逻辑独立性 : 当对基本关系进行理论上资讯不受损害的任何改变时，应用程式和终端活动都保持逻辑上的不变性。

;''准则10'' 资料完整的独立性 : 关系资料库的完整性约束条件必须是用资料库语言定义并存储在资料字典中的。

;''准则11'' 分布独立性 : 关系资料库系统在引入分布资料或资料重新分布时保持逻辑不变。

;''准则12'' 无破坏准则 : 如果一个关系资料库系统具有一个低阶语言，那么这个低阶语言不能违背或绕过完整性准则。

■实时资料库是资料库系统发展的一个分支，它适用于处理不断更新的快速变化的资料及具有时间限制的事务处理。实时资料库技术是实时系统和资料库技术相结合的产物，研究人员希望利用资料库技术来解决实时系统中的资料管理问题，同时利用实时技术为实时资料库提供时间驱动排程和资源分配演算法。然而，实时资料库并非是两者在概念、结构和方法上的简单整合。需要针对不同的应用需求和应用特点，对实时资料模型、实时事务排程与资源分配策略、实时资料查询语言、实时资料通讯等大量问题作深入的理论研究。实时资料库系统的主要研究内容包括：

实时资料库模型

实时事务排程：包括并发控制、冲突解决、死锁等内容

容错性与错误恢复

访问准入控制

记忆体组织与管理

I/O与磁碟排程

主记忆体资料库系统

不精确计算问题

放松的可序列化问题

实时SQL

实时事务的可预测性

研究现状与发展实时资料库系统最早出现在1988年3月的ACM SIGMOD Record的一期专刊中。随后，一个成熟的研究群体逐渐出现，这标志着实时领域与资料库领域的融合，标志着实时资料库这个新兴研究领域的确立。此后，出现了大批有关实时资料库方面的论文和原型系统。人机互动技术与智慧资讯处理实验室实时资料库小组一直致力于实时系统、实时智慧、实时资料库系统及相关技术的研究与开发，并取得了一定的成绩。

数据挖掘（DataMining）是指通过大量数据集进行分类的自动化过程，以通过数据分析来识别趋势和模式，建立关系来解决业务问题。换句话说，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

原则上讲，数据挖掘可以应用于任何类型的信息存储库及瞬态数据（如数据流），如数据库、数据仓库、数据集市、事务数据库、空间数据库（如地图等）、工程设计数据（如建筑设计等）、多媒体数据（文本、图像、视频、音频）、网络、数据流、时间序列数据库等。也正因如此，数据挖掘存在以下特点：

（1）数据集大且不完整

数据挖掘所需要的数据集是很大的，只有数据集越大，得到的规律才能越贴近于正确的实际的规律，结果也才越准确。除此以外，数据往往都是不完整的。

（2）不准确性

数据挖掘存在不准确性，主要是由噪声数据造成的。比如在商业中用户可能会提供假数据；在工厂环境中，正常的数据往往会收到电磁或者是辐射干扰，而出现超出正常值的情况。这些不正常的绝对不可能出现的数据，就叫做噪声，它们会导致数据挖掘存在不准确性。

（3）模糊的和随机的

数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察，或者由于涉及到隐私信息无法获知到具体的一些内容，这个时候如果想要做相关的分析 *** 作，就只能在大体上做一些分析，无法精确进行判断。

而数据的随机性有两个解释，一个是获取的数据随机；我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习，那么一切的 *** 作都属于是灰箱 *** 作。

hadoop一般是应用于冷数据处理，对于实时数据，如果非要使用，可以变着方法使用。

方法一：在hadoop上使用hbase数据库，以为hbase是不走Map/Rece的，所以 *** 作在毫秒级。

方法二：将业务数据用程序分成实时数据和冷数据，实时数据存于关系数据库，冷数据存到hadoop。比如：将最近一个月的数据存到关系数据库，用做实时响应业务处理。将一个月以前的数据存到hadoop，用作历史数据查询以及统计分析，数据挖掘等。

以上就是关于Hadoop生态系统-新手快速入门（含HDFS、HBase系统架构）全部的内容，包括:Hadoop生态系统-新手快速入门（含HDFS、HBase系统架构）、hadoop和mangoDb用作大数据分析哪个更好、关系型资料库与Hadoop的本质区别在什么地方等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9869811.html

Hadoop生态系统-新手快速入门（含HDFS、HBase系统架构）

发表评论

评论列表（0条）