根据Spark中的另一个RDD进行过滤

crucial • 2022-12-16 • 随笔 • 阅读 15

根据Spark中的另一个RDD进行过滤

在这种情况下，您要实现的是使用部门表中包含的数据在每个分区上进行过滤：这将是基本的解决方案：

val dept = deptRdd.collect.toSetval employeesWithValidDeptRdd = employeesRdd.filter{case (employee, d) => dept.contains(d)}

如果您部门的数据很大，则广播变量将通过将数据一次传递给所有节点来提高性能，而不必针对每个任务对其进行序列化

val deptBC = sc.broadcast(deptRdd.collect.toSet)val employeesWithValidDeptRdd = employeesRdd.filter{case (employee, d) => deptBC.value.contains(d)}

尽管使用联接可以工作，但这是一个非常昂贵的解决方案，因为它将需要分布式的数据混合（byKey）才能实现联接。考虑到需求是一个简单的过滤器，将数据发送到每个分区（如上所示）将提供更好的性能。

欢迎分享，转载请注明来源：内存溢出

数据联接分区过滤解决方案

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论