在Apache Spark中使用pyspark进行数据帧转置

在Apache Spark中使用pyspark进行数据帧转置,第1张

在Apache Spark中使用pyspark进行数据帧转置

如果数据足够小以至于可以转置(不以聚合为中心),则可以将其转换为Pandas

Dataframe

df = sc.parallelize([    ("f1", 0.0, 0.6, 0.5),    ("f2", 0.6, 0.7, 0.9)]).toDF(["s", "col_1", "col_2", "col_3"])df.toPandas().set_index("s").transpose()s       f1   f2col_1  0.0  0.6col_2  0.6  0.7col_3  0.5  0.9

如果太大,Spark将无济于事。Spark

Dataframe
按行分配数据(尽管本地使用列式存储),因此单个行的大小限于本地内存。



欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5666231.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存