三、大数据

三、大数据,第1张

三、大数据

本系列博客使用hadoop3.1.4

初识hadoop

hadoop官网:https://hadoop.apache.org/

hadoop介绍
  • 狭义
    hadoop是指Apache一款用java实现的开源软件,其作用是对大型数据集进行分布式集群处理。其核心组件有3个部分:

    • Hadoop HDFS(分布式文件存储系统):解决海量数据存储
    • Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度
    • Hadoop MapReduce(分布式计算框架):解决海量数据计算
  • 广义
    广义上Hadoop指的是围绕Hadoop打造的大数据生态圈

hadoop版本变迁

hadoop到2021.11为止,总共有3个大版本。

  • hadoop1
    hadoop1由2个模块组成MapReduce(分布式文件存储)+HDFS(资源管理和分布式数据处理)。此时HDFS的压力太大,功能不单一,所以后面把HDFS中资源管理、任务调度的部分抽取成YARN模块
  • hadoop2
    对hadoop1的架构进行了改进,将HDFS的资源管理、任务调度的部分抽取成YARN模块。并且YARN支持插件式的自定义模块。
  • hadoop3
    架构跟hadoop2的类似,主要对hadoop的性能进行提升优化。
hadoop集群搭建 Hadoop集群简洁

Hadoop集群包括两个集群:HDFS集群、YARN集群。并没有MapReduce集群!
两个集群逻辑上分离、通常物理上在一起
两个集群都是标准的主从架构集群

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5653506.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存