之前写过一篇文章分析Spark Shuffle的原理,知道了Shuffle是性能杀手的原因,但在实际业务中,Shuffle *** 作通常不可避免,毕竟Spark基础的用途就是对大数据进行统计分析,由于数据分布的分散性,导致相同Key的数据汇集到一起进行计算,必然要在网络进行传输。
有4个常见的导致Shuffle的算子,分别是 groupByKey、reduceByKey、aggregateByKey 和 sortByKey
一,groupByKeygroupByKey实现了分组收集,即将相同的key的数据收集到一起,相同的key可能分布在多个节点上,所以需要把相同的key通过网络拉取到同一个节点才能收集。
下图是groupByKey的计算过程示意图,可以看出有网络分发,结果是将相同的key的数据汇集为(key,value集合的形式)。groupByKey是一个效率很低的算子,因为它会导致数据在全网范围内的分发,要慎用。
二,reduceByKeyreduceByKey是一个使用频率比较高的算子,和groupByKey的区别在于reduceByKey会对value值进行聚合 *** 作,且这种聚合 *** 作首先在map端进行,聚合后的数据量会减少,相同key的结果会通过网络分发到同一个节点,然后进行最后一步的聚合。
下图是示意图,可以看见Shuffle过程,也可以看见和groupByKey的不同:在Map端的聚合和网络传输数量的减少。
# 三,aggregateByKey
groupByKey、reduceByKey的底层是aggregateByKey ,其比前二者更灵活,它可以为Map、Reduce阶段指定不同的聚合函数。
比如下面的示意图显示,在Map端进行sum *** 作,在reduce端进行max *** 作。
groupByKey、reduceByKey是在Map、Reduce端聚合函数相同的情况下的特殊的aggregateByKey *** 作。
望词生意,sortByKey是对数据按key进行排序。这个算子也会导致数据在全网范围的分发,是一个效率比较低的算子。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)