hadoop 实现 Join方法1

繁星春水 • 2022-12-16 • 随笔 • 阅读 18

hadoop 实现 Join方法1

reduce side join
reduce side join 是一种最简单的 join 方式，其主要思想如下：
在 map 阶段，map 函数同时读取两个文件 File1 和 File2，为了区分两种来源的 key/value 数
据对，对每条数据打一个标签（tag）,比如：tag=0 表示来自文件 File1，tag=2 表示来自文件
File2。即：map 阶段的主要任务是对不同文件中的数据打标签。
在 reduce 阶段，reduce 函数获取 key 相同的来自 File1 和 File2 文件的 value list，然后对于
同一个 key，对 File1 和 File2 中的数据进行 join（笛卡尔乘积）。即：reduce 阶段进行实际的
连接 *** 作。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5665588.html

文件阶段笛卡尔数据函数

打赏

微信扫一扫

支付宝扫一扫

繁星春水一级用户组

Flink Table & SQL 行列转换

上一篇 2022-12-16

关于数据公共层建设

下一篇 2022-12-16

发表评论

登录后才能评论

评论列表（0条）