大数据之路-Hadoop-概述（1）_随笔

大数据之路-Hadoop-概述（1）

Hadoop已经不是一个新技术了，从2003年谷歌的三驾马车（GFS、MapReduce、Bigtable），到2008年成为Apache的顶级项目，一直到现在广泛的使用在大数据领域中，这是在做数据中台建设时必然会接触到的领域。

因此想写一个系列，从产品经理的角度讲一讲Hadoop及其相关的一些生态，帮助非技术背景的同行们能够更快速的理解。

如果从一个产品角度来分析Hadoop，那么可以分成以下几个方面：

背景问题

Hadoop最早起源于Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎，在这过程中遇到了数十亿网页的存储和索引问题，而Hadoop正是为了解决海量数据的存储和计算而诞生。

Hadoop是什么？

在介绍Hadoop之前，先介绍一个简单的场景，如下图所示，工厂需要从仓库中运输原材料，然后加工成成品输出。
先假设一个最简单的模型：仓库有1280吨原材料，工厂可储备128吨，当前工厂有一台机器，每天能将一吨原材料加工成一个成品，现在需要将1280吨原材料运到工厂并加工成成品。

在上述模型中需要解决以下的两个问题：
1、工厂存储空间小的问题：仓库有1280吨，而工厂只能存储128吨，如何解决大量原材料存储的问题？
2、工厂加工效率低的问题：工厂一天只能加工1吨原材料，如何提高加工的效率?

因此，将该模型做了升级，如下图所示：
1、扩建工厂，每个工厂可存放128吨原材料，总共可存放1280吨。
2、招聘一个团队，团队中有一个leader负责分配任务并记录各个工厂的库存和施工情况，该团队工作机制包括：
1）物流机制：将原材料分成10份，每份128吨，并分别将每份原材料运输至不同工厂存放
2）加工机制：每个工厂分配一个工人进行对原材料进行加工，在其他条件不变的情况下，一天可加工10吨原材料

言归正传，Hadoop是一个软件框架，它利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop核心组件包括：
1、HDFS（分布式文件系统）：将数据切块、存储，并记录切块的数据分别存放在哪些服务器上。
2、MapReduce（分布式运算编程框架）：将待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务（Task），并自动调度计算节点来处理相应的数据块。

在这个模型中，可将工厂看做服务器，多个工厂相当于一个服务器集群，可通过扩展服务器的台数来扩展来存储容量；同时，可将这整个管理团队看做Hadoop，其中，物流机制可以看做是HDFS，加工机制可以看做是MapReduce。

从广义上来讲，Hadoop通常指一个更广泛的概念——Hadoop生态圈。

Hadoop厂商

在实际项目中，很少会使用原生Hadoop作为集群，往往使用一些商业版本，比如阿里的MaxCompute，阿里其实最早用的也是Hadoop，之后在此基础上做一些bug修复，特定开发等，但在这个过程中开源版本也在迭代，这时候就可能会提交不上去，新的特性也拉不下来，所以后来阿里就自己研究了一套ODPS，也就是现在的MaxCompute。

另外比较常见还有Cloudera的CDH，华为的FusionInsight，星环的TDH等，这些公司将开源的Hadoop版本升级改造，并提供一些辅助的可视化工具，比如Cloudera Manager 和Ambari等。

PS：加粗内容在后续文章中展开介绍。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5688175.html

大数据之路-Hadoop-概述（1）

发表评论

评论列表（0条）