大数据分析学习笔记1——Hadoop生态系统概述

大数据分析学习笔记1——Hadoop生态系统概述,第1张

数据分析学习笔记1——Hadoop生态系统概述 Hadoop生态系统概述
  1. HDFS
    Hadoop的最底层分布式文件系统)
    面向批处理
    Hadoop的核心 之一
    作用:海量分布式文件存储

  1. YARN
    YARN(资源调度和管理框架)
    提供资源调度和管理服务
    Hadoop2.0以后出现

为什么YARN会出现?
同时用几种技术时,会出现互相竞争cpu的问题

YARN可以进行统一调度分配给计算框架,最大程度的利用资源,底层数据的无缝共享


  1. MapReduce
    MapReduce(分布式计算框架)
    Hadoop两大核心之一
    思想:分而治之
    大的任务进行拆分,拆分成很多的子任务,把每个子任务分发到不同的主机上并行执行。
    只有满足分而治之才能使用MapReduce处理

  1. Hive
    Hive(数据仓库)
    不存储数据,数据存储在HDFS中
    本质上是编程接口,将sql语句转成相关的MapReduce程序对底层(HDFS)的数据进行查询分析。

  1. Pig
    Pig(数据流处理)
    和Hive组合使用 数据清洗

  1. Mahout
    Mahout(数据挖掘库)
    算法库
    实现常用数据挖掘算法 分类 聚类 回归等

  1. Ambari
    Ambari (安装、部署、配置和管理工具)

  1. Zookeeper
    Zookeeper(分布式协作服务)
    分布性协调一致性服务

  1. Hbase
    Hbase(分布式数据库)
    实时性计算

  1. Flume
    Flume(日志收集)
    日志采集分析

  1. Sqoop
    Sqoop(数据库ETL)
    完成Hadoop系统组件之间的互通 分布式数据和关系型数据库之间的转换

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/4965808.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-13
下一篇 2022-11-13

发表评论

登录后才能评论

评论列表(0条)

保存