如果数据足够小以至于可以转置(不以聚合为中心),则可以将其转换为Pandas
Dataframe:
df = sc.parallelize([ ("f1", 0.0, 0.6, 0.5), ("f2", 0.6, 0.7, 0.9)]).toDF(["s", "col_1", "col_2", "col_3"])df.toPandas().set_index("s").transpose()s f1 f2col_1 0.0 0.6col_2 0.6 0.7col_3 0.5 0.9
如果太大,Spark将无济于事。Spark
Dataframe按行分配数据(尽管本地使用列式存储),因此单个行的大小限于本地内存。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)