从Spark中的数据框列值中删除空格

从Spark中的数据框列值中删除空格,第1张

从Spark中的数据框列值中删除空格

虽然您所描述的问题无法通过提供的代码重现,但使用Python

UDFs
处理此类简单任务的效率很低。如果您只想从文本中删除空格,请使用
regexp_replace

from pyspark.sql.functions import regexp_replace, coldf = sc.parallelize([    (1, "foo bar"), (2, "foobar "), (3, "   ")]).toDF(["k", "v"])df.select(regexp_replace(col("v"), " ", ""))

如果要规范空行,请使用

trim

from pyspark.sql.functions import trimdf.select(trim(col("v")))

如果要保留前导/尾随空格,可以调整

regexp_replace

df.select(regexp_replace(col("v"), "^s+$", ""))


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5668725.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存