嘴说手画Spark的Bykey *** 作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey

嘴说手画Spark的Bykey *** 作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey,第1张

嘴说手画Spark的Bykey *** 作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey

之前写过一篇文章分析Spark Shuffle的原理,知道了Shuffle是性能杀手的原因,但在实际业务中,Shuffle *** 作通常不可避免,毕竟Spark基础的用途就是对大数据进行统计分析,由于数据分布的分散性,导致相同Key的数据汇集到一起进行计算,必然要在网络进行传输。

有4个常见的导致Shuffle的算子,分别是 groupByKey、reduceByKey、aggregateByKey 和 sortByKey

一,groupByKey

groupByKey实现了分组收集,即将相同的key的数据收集到一起,相同的key可能分布在多个节点上,所以需要把相同的key通过网络拉取到同一个节点才能收集。

下图是groupByKey的计算过程示意图,可以看出有网络分发,结果是将相同的key的数据汇集为(key,value集合的形式)。groupByKey是一个效率很低的算子,因为它会导致数据在全网范围内的分发,要慎用。

二,reduceByKey

reduceByKey是一个使用频率比较高的算子,和groupByKey的区别在于reduceByKey会对value值进行聚合 *** 作,且这种聚合 *** 作首先在map端进行,聚合后的数据量会减少,相同key的结果会通过网络分发到同一个节点,然后进行最后一步的聚合。

下图是示意图,可以看见Shuffle过程,也可以看见和groupByKey的不同:在Map端的聚合和网络传输数量的减少。
# 三,aggregateByKey

groupByKey、reduceByKey的底层是aggregateByKey ,其比前二者更灵活,它可以为Map、Reduce阶段指定不同的聚合函数。

比如下面的示意图显示,在Map端进行sum *** 作,在reduce端进行max *** 作。

groupByKey、reduceByKey是在Map、Reduce端聚合函数相同的情况下的特殊的aggregateByKey *** 作。

四,sortByKey

望词生意,sortByKey是对数据按key进行排序。这个算子也会导致数据在全网范围的分发,是一个效率比较低的算子。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5652455.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存