pyspark.ml管道：基本预处理任务是否需要自定义转换器？

运动鞋网站 • 2022-12-16 • 随笔 • 阅读 15

pyspark.ml管道：基本预处理任务是否需要自定义转换器？

我想说这主要是基于意见的，尽管它看起来不必要地冗长，并且Python

Transformers

无法与其余

Pipeline

API很好地集成。

还值得指出的是，您可以轻松实现此处的所有功能

SQLTransformer

。例如：

from pyspark.ml.feature import SQLTransformerdef column_selector(columns):    return SQLTransformer(        statement="SELECT {} FROM __THIS__".format(", ".join(columns))    )

要么

def na_dropper(columns):    return SQLTransformer(        statement="SELECT * FROM __THIS__ WHERe {}".format( " AND ".join(["{} IS NOT NULL".format(x) for x in columns])        )    )

稍加努力，您就可以将SQLAlchemy与Hive方言结合使用来避免手写SQL。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5631288.html

要地预处理转换器手写方言

打赏

微信扫一扫

支付宝扫一扫

运动鞋网站一级用户组

在OS X Lion上安装pygame的最佳方法？

上一篇 2022-12-15

如何装饰从文件导入的所有功能？

下一篇 2022-12-16

发表评论

登录后才能评论

评论列表（0条）