MapReduce程序实现词频统计_随笔

MapReduce程序实现词频统计

一、要求：

input：

output：

二、内容：

1、完整的词频统计程序如下：

2、使用Eclipse编译打包程序：

3、运行程序：

三、总结：

一、要求：

首先在Linux系统 /usr/local/Hadoop 目录下创建两个文件，即wordfile1.txt和wordfile2.txt

input：

文件wordfile1.txt内容如下：

I love Spark

I love Hadoop

文件wordfile2.txt内容如下：

Hadoop is good

Spark is fast

output：

统计词频输出结果：

fast 1

good 1

Hadoop 2

I 2

is 2

love 2

Spark 2

二、内容： 1、完整的词频统计程序如下：

2、使用Eclipse编译打包程序：

程序编译错误时，鼠标点击有红色波浪线的程序，按提示修改即可

3、运行程序：

三、总结：

本实验运用MapReduce程序实现了词频统计功能。在编写MapReduce程序之前，需要先判断目标任务是否可以采用MapReduce编程。MapReduce会把一个大的文件切分为很多小片段进行分布式并行处理，最终对不同片段的处理结果进行汇总。

参考文献：《大数据基础编程、实验和案例教程》 by 林子雨

下载专区http://dblab.xmu.edu.cn/post/bigdatapractice2/http://dblab.xmu.edu.cn/post/bigdatapractice2/具体运行过程查看上面链接

欢迎分享，转载请注明来源：内存溢出

MapReduce程序实现词频统计