MapReduce概述_随笔

MapReduce概述

文章目录

1、MapReduce的优缺点
- 1.1 优点
- 1.2 缺点
2、MapReduce进程
3、常用数据序列化类型

1、MapReduce的优缺点 1.1 优点

MapReduce易于编程
良好的扩展性

当计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。
高容错性

MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。
适合PB级以上海量数据的离线处理

可以实现上千台服务器集群并发工作，提供数据处理能力。

1.2 缺点

不擅长实时计算

MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果。
不擅长流式计算

流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
不擅长DAG（有向无环图）计算

多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

2、MapReduce进程

三类实例进程：

MrAppMaster：负责整个程序的过程调度及状态协调。
MapTask：负责Map阶段的整个数据处理流程。
ReduceTask：负责Reduce阶段的整个数据处理流程。

3、常用数据序列化类型 Java类型Hadoop Writable类型BooleanBooleanWritableByteByteWritableIntIntWritableFloatFloatWritableLongLongWritableDoubleDoubleWritableStringTextMapMapWritableArrayArrayWritableNullNullWritable

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5664960.html

MapReduce概述

发表评论

评论列表（0条）