MapReduce执行过程

MapReduce执行过程,第1张

大数据的时代, 到处张嘴闭嘴都是Hadoop, MapReduce, 不跟上时代怎么行? 可是对一个hadoop的新手, 写一个属于自己的MapReduce程序还是小有点难度的, 需要建立一个maven项目, 还要搞清楚各种库的依赖, 再加上编译运行, 基本上头大两圈了吧。 这也使得很多只是想简单了解一下MapReduce的人望而却步。

本文会教你如何用最快最简单的方法编写和运行一个属于自己的MapReduce程序, let's go!

首先有两个前提:

1 有一个已经可以运行的hadoop 集群(也可以是伪分布系统), 上面的hdfs和mapreduce工作正常 (这个真的是最基本的了, 不再累述, 不会的请参考 >

Stream(流)是一个来自数据源的元素队列并支持聚合 *** 作

<strong元素队列< strong="">元素是特定类型的对象,形成一个队列。 Java中的Stream并不会存储元素,而是按需计算。

数据源 流的来源。 可以是集合,数组,I/O channel, 产生器generator 等。

聚合 *** 作 类似SQL语句一样的 *** 作, 比如filter, map, reduce, find, match, sorted等。

可以试试这个输出什么:

String[] strarr = {"abc", "defg", "vwxyz"};

int iSum = Arraysstream(strarr)

mapToInt(s -> slength())

sum();

Systemoutprintln("长度和: "+iSum);

扩展资料:

Java还包括一个类的扩展集合,分别组成各种程序包(Package),用户可以在自己的程序中使用。例如,Java提供产生图形用户接口部件的类(javaawt包),这里awt是抽象窗口工具集(abstract windowing toolkit)的缩写,处理输入输出的类(javaio包)和支持网络功能的类(javanet包)。

参考资料来源:百度百科-Java

mapreduce支持几种特定的压缩格式,会自行对这些格式的压缩包进行解压缩 *** 作。具体实现在LineRecordReader类中,该类继承自RecordReader,是MapReduce中用于读取文件的类,该类在读取文件内容前会根据文件后缀判断是否进行解压缩。

以上就是关于MapReduce执行过程全部的内容,包括:MapReduce执行过程、如何使用Python为Hadoop编写一个简单的MapReduce程序、如何快速地编写和运行一个属于自己的MapReduce例子程序等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10176074.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存