大数据的时代, 到处张嘴闭嘴都是Hadoop, MapReduce, 不跟上时代怎么行? 可是对一个hadoop的新手, 写一个属于自己的MapReduce程序还是小有点难度的, 需要建立一个maven项目, 还要搞清楚各种库的依赖, 再加上编译运行, 基本上头大两圈了吧。 这也使得很多只是想简单了解一下MapReduce的人望而却步。
本文会教你如何用最快最简单的方法编写和运行一个属于自己的MapReduce程序, let's go!
首先有两个前提:
1 有一个已经可以运行的hadoop 集群(也可以是伪分布系统), 上面的hdfs和mapreduce工作正常 (这个真的是最基本的了, 不再累述, 不会的请参考 >
Stream(流)是一个来自数据源的元素队列并支持聚合 *** 作
<strong元素队列< strong="">元素是特定类型的对象,形成一个队列。 Java中的Stream并不会存储元素,而是按需计算。
数据源 流的来源。 可以是集合,数组,I/O channel, 产生器generator 等。
聚合 *** 作 类似SQL语句一样的 *** 作, 比如filter, map, reduce, find, match, sorted等。
可以试试这个输出什么:
String[] strarr = {"abc", "defg", "vwxyz"};
int iSum = Arraysstream(strarr)
mapToInt(s -> slength())
sum();
Systemoutprintln("长度和: "+iSum);
扩展资料:
Java还包括一个类的扩展集合,分别组成各种程序包(Package),用户可以在自己的程序中使用。例如,Java提供产生图形用户接口部件的类(javaawt包),这里awt是抽象窗口工具集(abstract windowing toolkit)的缩写,处理输入输出的类(javaio包)和支持网络功能的类(javanet包)。
参考资料来源:百度百科-Java
mapreduce支持几种特定的压缩格式,会自行对这些格式的压缩包进行解压缩 *** 作。具体实现在LineRecordReader类中,该类继承自RecordReader,是MapReduce中用于读取文件的类,该类在读取文件内容前会根据文件后缀判断是否进行解压缩。
以上就是关于MapReduce执行过程全部的内容,包括:MapReduce执行过程、如何使用Python为Hadoop编写一个简单的MapReduce程序、如何快速地编写和运行一个属于自己的MapReduce例子程序等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)