多个连续加入pyspark

海淀驾校班车 • 2022-12-16 • 随笔 • 阅读 66

多个连续加入pyspark

您可以使用等参：

 minTime.join(maxTime, ["UserId"]).join(sumTime, ["UserId"])

minTime.alias("minTime").join(    maxTime.alias("maxTime"),     col("minTime.UserId") == col("maxTime.UserId"))

或引用父表：

(minTime  .join(maxTime, minTime["UserId"] == maxTime["UserId"])  .join(sumTime, minTime["UserId"] == sumTime["UserId"]))

另外，您引用的是

RDD

文档，而不是文档

Dataframe

。这些是不同的数据结构，并且 *** 作方式不同。

而且看起来您在这里做的事情很奇怪。假设您有一个父表

min

，

max

并且

sum

可以将其计算为简单的聚合而没有

join

。

欢迎分享，转载请注明来源：内存溢出

文档数据结构别名假设聚合

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论