Spark 如何自定义 partitioner 分区器

surfer教程 • 2022-12-17 • 随笔 • 阅读 85

1）spark默认实现了HashPartitioner和RangePartitioner两种分区策略，我们也可以自己扩展分区策略，自定义分区器的时候继承org.apache.spark.Partitioner类，实现类中的三个方法：
def numPartitions: Int：这个方法需要返回你想要创建分区的个数；
def getPartition(key: Any): Int：这个函数需要对输入的key做计算，然后返回该key的分区ID，范围一定是0到numPartitions-1；
equals()：这个是Java标准的判断相等的函数，之所以要求用户实现这个函数是因为Spark内部会比较两个RDD的分区是否一样。
2）使用，调用parttionBy方法中传入自定义分区对象。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5705565.html

分区函数方法策略返回

打赏

微信扫一扫

支付宝扫一扫

surfer教程一级用户组

0 0

MQTT篇4 MQTT桥接模式

上一篇 2022-12-17

DaoCloud道客：云原生多云应用利器-Karmada调度器

下一篇 2022-12-17

发表评论

登录后才能评论

Spark 如何自定义 partitioner 分区器

发表评论

评论列表（0条）