目录
一、要求:
input:
output:
二、内容:
1、完整的词频统计程序如下:
2、使用Eclipse编译打包程序:
3、运行程序:
三、总结:
一、要求:
首先在Linux系统 /usr/local/Hadoop 目录下创建两个文件,即wordfile1.txt和wordfile2.txt
input:文件wordfile1.txt内容如下:
I love Spark
I love Hadoop
文件wordfile2.txt内容如下:
Hadoop is good
Spark is fast
output:统计词频输出结果:
fast 1
good 1
Hadoop 2
I 2
is 2
love 2
Spark 2
二、内容: 1、完整的词频统计程序如下: 2、使用Eclipse编译打包程序:程序编译错误时,鼠标点击有红色波浪线的程序,按提示修改即可
3、运行程序: 三、总结:本实验运用MapReduce程序实现了词频统计功能。在编写MapReduce程序之前,需要先判断目标任务是否可以采用MapReduce编程。MapReduce会把一个大的文件切分为很多小片段进行分布式并行处理,最终对不同片段的处理结果进行汇总。
参考文献:《大数据基础编程、实验和案例教程》 by 林子雨
下载专区http://dblab.xmu.edu.cn/post/bigdatapractice2/http://dblab.xmu.edu.cn/post/bigdatapractice2/具体运行过程查看上面链接
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)