关于SparkSQL中withColumn生成自增序列的一个坑

关于SparkSQL中withColumn生成自增序列的一个坑,第1张

首先我们创建一个RDD并设置分区数为2,然后转换成DataFrame,生成一列新的ID

然后我们看下生成的ID,可见同分区连续

我们使用coalesce方法将分区设置为1

df.withColumn("uniform", dfdata.col("io"))

df的withColumn后面的列只能在df里面挑选,不能从别的DataFrame里面选列


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/bake/11660220.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存