pyspark.ml管道:基本预处理任务是否需要自定义转换器?

pyspark.ml管道:基本预处理任务是否需要自定义转换器?,第1张

pyspark.ml管道:基本预处理任务是否需要自定义转换器

我想说这主要是基于意见的,尽管它看起来不必要地冗长,并且Python

Transformers
无法与其余
Pipeline
API很好地集成。

还值得指出的是,您可以轻松实现此处的所有功能

SQLTransformer
。例如:

from pyspark.ml.feature import SQLTransformerdef column_selector(columns):    return SQLTransformer(        statement="SELECT {} FROM __THIS__".format(", ".join(columns))    )

要么

def na_dropper(columns):    return SQLTransformer(        statement="SELECT * FROM __THIS__ WHERe {}".format( " AND ".join(["{} IS NOT NULL".format(x) for x in columns])        )    )

稍加努力,您就可以将SQLAlchemy与Hive方言结合使用来避免手写SQL。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5631288.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存