mapreduce 编程_随笔

mapreduce 编程

首先 map task 写一个继承Mapper 的类；

中间可能写一个分文件的一个partition 的类；（注意设置 reducetask 的数量）

中间还有可能写一个 combiner. 也是继承Reducer. 可用来优化

最后 reduce task 写一个继承Reducer 的类；

1. 简单的Wordcount; 使用普通的 hadoop 序列化数据类型就可以，Text, LongWritable;

2.实现排序，一般就是一行多个字段， order by 其中一个或者多个；

那么就要将这一行多个字段组成 Bean , 然后继承 WriteCompartor.

public class MySortBean implements WritableComparable

实现方法有个compareTo. 返回1 或者-1 代表降序。

    @Override
    public int compareTo(MySortBean o) {
        // 1. 先第一列排序
        //返回0 表示 相同
        int i = this.word.compareTo(o.word);
        //2. 第二列排序
        if(i==0) //
        {
            return this.num-o.num;
        }
        return i;
    }

3. 还是多个字段，没有排序，只是sum 计算。如果计算一个，就回到wordcount。统计多列的话，那就又要 Bean 的概念。此时又要序列化。

所以这个Bean class 要实现Writable.（implements Writable）这个类。然后完成字段的序列化和反序列化。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5655775.html

mapreduce 编程

发表评论

评论列表（0条）