在Apache Spark中使用pyspark进行数据帧转置

秦皇岛海天一色 • 2022-12-16 • 随笔 • 阅读 13

如果数据足够小以至于可以转置（不以聚合为中心），则可以将其转换为Pandas

Dataframe

：

df = sc.parallelize([    ("f1", 0.0, 0.6, 0.5),    ("f2", 0.6, 0.7, 0.9)]).toDF(["s", "col_1", "col_2", "col_3"])df.toPandas().set_index("s").transpose()s       f1   f2col_1  0.0  0.6col_2  0.6  0.7col_3  0.5  0.9

如果太大，Spark将无济于事。Spark

Dataframe

按行分配数据（尽管本地使用列式存储），因此单个行的大小限于本地内存。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5666231.html

数据无济于事限于聚合足够

打赏

微信扫一扫

支付宝扫一扫

秦皇岛海天一色一级用户组

0 0

为什么我的代码无法正确地将扫描的pdf中的每一页分开？

上一篇 2022-12-16

如何从wxPython应用程序捕获所有异常？

下一篇 2022-12-16

发表评论

登录后才能评论

在Apache Spark中使用pyspark进行数据帧转置

发表评论

评论列表（0条）