虽然您所描述的问题无法通过提供的代码重现,但使用Python
UDFs处理此类简单任务的效率很低。如果您只想从文本中删除空格,请使用
regexp_replace:
from pyspark.sql.functions import regexp_replace, coldf = sc.parallelize([ (1, "foo bar"), (2, "foobar "), (3, " ")]).toDF(["k", "v"])df.select(regexp_replace(col("v"), " ", ""))
如果要规范空行,请使用
trim:
from pyspark.sql.functions import trimdf.select(trim(col("v")))
如果要保留前导/尾随空格,可以调整
regexp_replace:
df.select(regexp_replace(col("v"), "^s+$", ""))
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)