mapreduce二次排序_ mapreduce二次排序原理_技术

关于什么是二次排序

在mapreduce *** 作时，shuffle阶段会多次根据key值排序。但是在shuffle分组后，相同key值的values序列的顺序是不确定的（如下图）。如果想要此时value值也是排序好的，这种需求就是二次排序。

默认情况下，Map输出的结果会对Key进行默认的排序，但是有时候需要对Key排序的同时还需要对Value进行排序，这时候就要用到二次排序了。

mapreduce二次排序分析

我们把二次排序分为以下几个阶段

Map起始阶段

在Map阶段，使用job.seTInputFormatClass（）定义的InputFormat，将输入的数据集分割成小数据块split，同时InputFormat提供一个RecordReader的实现。在这里我们使用的是TexTInputFormat，它提供的RecordReader会将文本的行号作为Key，这一行的文本作为Value。这就是自定 Mapper的输入是《LongWritable，Text》的原因。然后调用自定义Mapper的map方法，将一个个《LongWritable，Text》键值对输入给Mapper的map方法

Map最后阶段

在Map阶段的最后，会先调用job.setParTITIonerClass（）对这个Mapper的输出结果进行分区，每个分区映射到一个Reducer。每个分区内又调用job.setSortComparatorClass（）设置的Key比较函数类排序。可以看到，这本身就是一个二次排序。如果没有通过job.setSortComparatorClass（）设置 Key比较函数类，则使用Key实现的compareTo（）方法

Reduce阶段

在Reduce阶段，reduce（）方法接受所有映射到这个Reduce的map输出后，也会调用job.setSortComparatorClass（）方法设置的Key比较函数类，对所有数据进行排序。然后开始构造一个Key对应的Value迭代器。这时就要用到分组，使用 job.setGroupingComparatorClass（）方法设置分组函数类。只要这个比较器比较的两个Key相同，它们就属于同一组，它们的 Value放在一个Value迭代器，而这个迭代器的Key使用属于同一个组的所有Key的第一个Key。最后就是进入Reducer的 reduce（）方法，reduce（）方法的输入是所有的Key和它的Value迭代器，同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。

、

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2718133.html

mapreduce二次排序_ mapreduce二次排序原理

发表评论

评论列表（0条）