Hadoop 3.x|第十三天|MapReduce框架原理(MapTask工作机制)

Hadoop 3.x|第十三天|MapReduce框架原理(MapTask工作机制),第1张

目录
  • 工作阶段
    • Read阶段
    • Map阶段
    • Collect收集阶段
    • 溢写阶段
    • Merge阶段
  • 溢写阶段详情
    • 1.对key进行分区和快速排序
    • 2.写入out文件
    • 3.记录分区元数据
  • Merge阶段详情
    • 生成文件
    • 合并过程
    • 优点

工作阶段
  1. Read阶段
  2. Map阶段
  3. Collect阶段
  4. 溢写阶段
  5. Merge阶段
Read阶段

首先划分完后提交切片,jar包和xml给Yarn,Yarn会开启一个MrAppMaster,由MrAppMaster开启MapTask。
MapTask 通过InputFormat获得的RecordReader,从输入 InputSplit 中解析出一个个 key/value。

Map阶段

该节点主要是将解析出的 key/value 交给用户编写的map()函数处理,并产生一系列新的 key/value。

Collect收集阶段

在用户编写 map()函数中,当数据处理完成后,一般会调用
OutputCollector.collect()输出结果。
在该函数内部,它会将生成的 key/value 分区(调用Partitioner),并写入一个环形内存缓冲区中。

溢写阶段

即“溢写”,当环形缓冲区满后,MapReduce 会将数据写到本地磁盘上,生成一个临时文件。
需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等 *** 作。

Merge阶段

当所有数据处理完成后,MapTask 对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。

溢写阶段详情 1.对key进行分区和快速排序

利用快速排序算法对缓存区内的数据进行排序,排序方式是,先按照分区编号Partition 进行排序,然后按照 key 进行排序。
这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照 key 有序。

2.写入out文件

按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件 output/spillN.out(N 表示当前溢写次数)中。
如果用户设置了 Combiner,则写入文件之前,对每个分区中的数据进行一次聚集 *** 作。

3.记录分区元数据

将分区数据的元信息写到内存索引数据结构 SpillRecord 中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。
如果当前内存索引大小超过 1MB,则将内存索引写到文件 output/spillN.out.index 中。

Merge阶段详情 生成文件

当所有数据处理完后,MapTask 会将所有临时文件合并成一个大文件,并保存到文件output/file.out 中,同时生成相应的索引文件 output/file.out.index。

合并过程

在进行文件合并过程中,MapTask 以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。每轮合并mapreduce.task.io.sort.factor(默认 10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。

优点

让每个 MapTask 最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/720108.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存