MapReduce程序实现词频统计

MapReduce程序实现词频统计,第1张

MapReduce程序实现词频统计

目录

一、要求:

input:

output:

二、内容:

1、完整的词频统计程序如下:

2、使用Eclipse编译打包程序:

3、运行程序:

三、总结:


一、要求:

首先在Linux系统 /usr/local/Hadoop 目录下创建两个文件,即wordfile1.txt和wordfile2.txt

input:

文件wordfile1.txt内容如下:

I love Spark

I love Hadoop

文件wordfile2.txt内容如下:

Hadoop is good

Spark is fast

output:

统计词频输出结果:

fast 1

good 1

Hadoop 2

I 2

is 2

love 2

Spark 2

二、内容: 1、完整的词频统计程序如下:

2、使用Eclipse编译打包程序:

程序编译错误时,鼠标点击有红色波浪线的程序,按提示修改即可

3、运行程序:

三、总结:

本实验运用MapReduce程序实现了词频统计功能。在编写MapReduce程序之前,需要先判断目标任务是否可以采用MapReduce编程。MapReduce会把一个大的文件切分为很多小片段进行分布式并行处理,最终对不同片段的处理结果进行汇总。

参考文献:《大数据基础编程、实验和案例教程》 by 林子雨

下载专区http://dblab.xmu.edu.cn/post/bigdatapractice2/http://dblab.xmu.edu.cn/post/bigdatapractice2/具体运行过程查看上面链接

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5669104.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存