您可以使用等参:
minTime.join(maxTime, ["UserId"]).join(sumTime, ["UserId"])
别名:
minTime.alias("minTime").join( maxTime.alias("maxTime"), col("minTime.UserId") == col("maxTime.UserId"))
或引用父表:
(minTime .join(maxTime, minTime["UserId"] == maxTime["UserId"]) .join(sumTime, minTime["UserId"] == sumTime["UserId"]))
另外,您引用的是
RDD文档,而不是文档
Dataframe。这些是不同的数据结构,并且 *** 作方式不同。
而且看起来您在这里做的事情很奇怪。假设您有一个父表
min,
max并且
sum可以将其计算为简单的聚合而没有
join。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)