PySpark将类型为“映射”的列转换为数据框中的多个列

七十年代老电影 • 2022-12-16 • 随笔 • 阅读 16

由于的键

MapType

不是架构的一部分，因此您必须首先收集这些键，例如：

from pyspark.sql.functions import explodekeys = (df    .select(explode("Parameters"))    .select("key")    .distinct()    .rdd.flatMap(lambda x: x)    .collect())

当您拥有了这些之后，剩下的就是简单的选择：

from pyspark.sql.functions import colexprs = [col("Parameters").getItem(k).alias(k) for k in keys]df.select(*exprs)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5646685.html

映射架构剩下收集拥有

打赏

微信扫一扫

支付宝扫一扫

七十年代老电影一级用户组

0 0

如何使用python的urllib设置标头？

上一篇 2022-12-16

设置matplotlib 3d绘图纵横比？

下一篇 2022-12-16

发表评论

登录后才能评论

PySpark将类型为“映射”的列转换为数据框中的多个列

发表评论

评论列表（0条）