大数据之-Hadoop3.x

大数据之-Hadoop3.x,第1张

数据之-Hadoop3.x

1.这个shuffle机制,是在map方法和reduce方法之间的一种机制

shuffle是在map方法之后,reduce方法之前,用来处理数据的过程.

 

可以看到我们再来回想一下,map方法执行以后,会对数据进行,整理,然后写入环形缓冲区,会把元数据,索引写入到环形缓冲区左侧,

把真正的数据写入到环形缓冲区,右侧,然后当写入的数据,达到环形缓冲区的,百分之80的时候,就可以溢写,同时进行反向逆写,这样好留出,

一些空闲时间,这样的话,不至于,等到环形缓冲区,被写满了以后,再去溢写,这样要想再写入数据就只能等待,溢写完毕了.

溢写之前,会先把数据分别写入到对应的分区中去,因为记录的时候,元数据中记录了,这块数据是属于哪个分区的了,上一节有详细说明,然后

就可以再对数据进行排序,这里用的是快速排序,是对索引,进行字典顺序排序.

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5676224.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存