- 介绍
- 发行版本
- 特点
- 组成
- 大数据技术生态体系
- Hadoop是Apache基金会开发的分布式系统基础架构
- 主要解决海量数据存储和分析计算
- 广义Hadoop指Hadoop生太圈
- Apache原始开源版
- Cloudera商业版CDH
- Hortonworks商业版HDP
- 两家公司合并后的商业版CDP
- 高可靠——多副本
- 高扩展——动态增加服务器
- 高效——并行工作
- 高空错——失败任务重新分配
- HDFS
HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统。
- NameNode(nn)——文件源数据
- DataNode(dn)——文件数据
- Secondary NameNode(2nn)——nn定期备份(非热备)
源数据,是描述数据的数据,用于描术数据的属性信息
- Yarn
Yarn(Yet Another Resource Negotiator)是Hadoop资源管理器。
- ResourcesManager(RM)——集群资源管理器
- NodeManager(NM)——节点管理器
- ApplicationMaster(AM)——应用管理器
- Container——容器(独立服务器)
- MapReduce
- Map阶段——并行处理输入数据
- Reduce阶段——结果汇总
- 运作方式
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)