多个连续加入pyspark

多个连续加入pyspark,第1张

多个连续加入pyspark

您可以使用等参:

 minTime.join(maxTime, ["UserId"]).join(sumTime, ["UserId"])

别名

minTime.alias("minTime").join(    maxTime.alias("maxTime"),     col("minTime.UserId") == col("maxTime.UserId"))

或引用父表:

(minTime  .join(maxTime, minTime["UserId"] == maxTime["UserId"])  .join(sumTime, minTime["UserId"] == sumTime["UserId"]))

另外,您引用的是

RDD
文档,而不是文档
Dataframe
。这些是不同的数据结构,并且 *** 作方式不同。

而且看起来您在这里做的事情很奇怪。假设您有一个父表

min
max
并且
sum
可以将其计算为简单的聚合而没有
join



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5642955.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存