本系列博客使用hadoop3.1.4
初识hadoophadoop官网:https://hadoop.apache.org/
hadoop介绍-
狭义
hadoop是指Apache一款用java实现的开源软件,其作用是对大型数据集进行分布式集群处理。其核心组件有3个部分:- Hadoop HDFS(分布式文件存储系统):解决海量数据存储
- Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度
- Hadoop MapReduce(分布式计算框架):解决海量数据计算
-
广义
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈
hadoop到2021.11为止,总共有3个大版本。
- hadoop1
hadoop1由2个模块组成MapReduce(分布式文件存储)+HDFS(资源管理和分布式数据处理)。此时HDFS的压力太大,功能不单一,所以后面把HDFS中资源管理、任务调度的部分抽取成YARN模块
- hadoop2
对hadoop1的架构进行了改进,将HDFS的资源管理、任务调度的部分抽取成YARN模块。并且YARN支持插件式的自定义模块。
- hadoop3
架构跟hadoop2的类似,主要对hadoop的性能进行提升优化。
Hadoop集群包括两个集群:HDFS集群、YARN集群。并没有MapReduce集群!
两个集群逻辑上分离、通常物理上在一起
两个集群都是标准的主从架构集群
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)