- HDFS
Hadoop的最底层分布式文件系统)
面向批处理
Hadoop的核心 之一
作用:海量分布式文件存储
- YARN
YARN(资源调度和管理框架)
提供资源调度和管理服务
Hadoop2.0以后出现
为什么YARN会出现?
同时用几种技术时,会出现互相竞争cpu的问题
YARN可以进行统一调度分配给计算框架,最大程度的利用资源,底层数据的无缝共享
- MapReduce
MapReduce(分布式计算框架)
Hadoop两大核心之一
思想:分而治之
大的任务进行拆分,拆分成很多的子任务,把每个子任务分发到不同的主机上并行执行。
只有满足分而治之才能使用MapReduce处理
- Hive
Hive(数据仓库)
不存储数据,数据存储在HDFS中
本质上是编程接口,将sql语句转成相关的MapReduce程序对底层(HDFS)的数据进行查询分析。
- Pig
Pig(数据流处理)
和Hive组合使用 数据清洗
- Mahout
Mahout(数据挖掘库)
算法库
实现常用数据挖掘算法 分类 聚类 回归等
- Ambari
Ambari (安装、部署、配置和管理工具)
- Zookeeper
Zookeeper(分布式协作服务)
分布性协调一致性服务
- Hbase
Hbase(分布式数据库)
实时性计算
- Flume
Flume(日志收集)
日志采集分析
- Sqoop
Sqoop(数据库ETL)
完成Hadoop系统组件之间的互通 分布式数据和关系型数据库之间的转换
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)