大数据之-Hadoop3.x_随笔

大数据之-Hadoop3.x

1.然后我们再去看MapReduce的详细工作流程,可以看到比如首先我们有个200m的文件ss.txt,然后首先,我们写的客户端程序,首先去

获取待处理的数据,然后根据参数配置,形成任务规划,实际上就是切片对吧.

2.然后客户端把切片好的信息,提交给yarn,这里提交的信息有job.split用来分片的,wc.jar是我们自己的处理数据的jar包,然后job.xml是

我们这个程序中配置的一些参数.

3.然后提交给yarn rm 以后,然后会首先提交给这个mrappmaster,然后我们之前说结构的时候说过,这个mrappmaster就是系统的老大,他会

去根据提交的信息,去读取有几个切片,然后开启对应的maptask去处理数据.可以看到上面就开启了两个maptask对吧.

4.然后maptask启动以后,他首先就去找inputformat对吧,这个inputformat我们说默认加载的是TextInputFormat对吧,然后这TextInputForma

欢迎分享，转载请注明来源：内存溢出

大数据之-Hadoop3.x