Hive SQL查询left join下on条件和where条件区别

Hive SQL查询left join下on条件和where条件区别,第1张

Hive SQL查询left join下on条件和where条件区别

我们通常的认知是联表查询时ON是作用于联表前(时)的过滤条件,WHERe是对联表后的数据的过滤条件,但hive sql查询有个特殊点需要关注,那就是对于left join中的单独针对左表的ON过滤条件有可能会被忽略,比如

SELECt DISTINCT a.dt FROM 
wlxdw.dws_tuid_cheat_di a 
LEFT JOIN
wlxdw.apps_tuid_device_map_ds b
ON a.tuid = b.tuid AND a.dt='2021-10-18' AND b.dt='2021-10-19'

查询结果

可以看到a.dt='2021-10-18’这个过滤条件并没有生效,有人可能觉得b.dt='2021-10-19’是不是也没有生效,把上述SQL稍作修改来验证一下

SELECt DISTINCT b.dt FROM 
wlxdw.dws_tuid_cheat_di a 
LEFT JOIN
wlxdw.apps_tuid_device_map_ds b
ON a.tuid = b.tuid AND a.dt='2021-10-18' AND b.dt='2021-10-19'


显而易见,右表上的ON条件 b.dt=xxxx 生效了,那如果想要左表的 a.dt=‘2021-10-18’ 生效,可以放在WHERe条件上


而如果把右表的b.dt=‘2021-10-19’ 放到WHERe条件,语义则变的不一样,由于WHERe是先联表再进行过滤,这时查询结果中b.dt就不存在值为NULL的情况了,LEFT JOIN 相当于变成了 INNER JOIN


从上面的结果可以看出ON和WHERe查询条件语义上的差别

再来看一组SQL对比




神奇的一幕出现了,此时ON中的过滤条件a.dt=‘2021-10-18’ 时而生效时而不生效

总结:Hive SQL 中 LEFT JOIN 单独针对左表的过滤条件必须放在WHERe上,放在ON上的效果是不可预期的,单独针对右表的查询条件放在ON上是先过滤右表,再和左表联表,放在WHERe条件上则是先联表再过滤,语义上存在差别。

补充:对于MYSQL中的LEFT JOIN和Hive中表现相似,更深层次分析可以看看 https://developer.aliyun.com/article/718897

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/4686076.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-07
下一篇 2022-11-07

发表评论

登录后才能评论

评论列表(0条)

保存