大数据之-Hadoop3.x

domenico • 2022-12-16 • 随笔 • 阅读 62

大数据之-Hadoop3.x

1.这个shuffle机制,是在map方法和reduce方法之间的一种机制

shuffle是在map方法之后,reduce方法之前,用来处理数据的过程.

可以看到我们再来回想一下,map方法执行以后,会对数据进行,整理,然后写入环形缓冲区,会把元数据,索引写入到环形缓冲区左侧,

把真正的数据写入到环形缓冲区,右侧,然后当写入的数据,达到环形缓冲区的,百分之80的时候,就可以溢写,同时进行反向逆写,这样好留出,

一些空闲时间,这样的话,不至于,等到环形缓冲区,被写满了以后,再去溢写,这样要想再写入数据就只能等待,溢写完毕了.

溢写之前,会先把数据分别写入到对应的分区中去,因为记录的时候,元数据中记录了,这块数据是属于哪个分区的了,上一节有详细说明,然后

就可以再对数据进行排序,这里用的是快速排序,是对索引,进行字典顺序排序.

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5676224.html

数据缓冲区环形写入方法

打赏

微信扫一扫

支付宝扫一扫

domenico 一级用户组

2021年MathorCup高校数学建模挑战赛——大数据竞赛【竞赛通知】

上一篇 2022-12-17

rabbitmq使用详解

下一篇 2022-12-17

发表评论

登录后才能评论

评论列表（0条）