我想说这主要是基于意见的,尽管它看起来不必要地冗长,并且Python
Transformers无法与其余
PipelineAPI很好地集成。
还值得指出的是,您可以轻松实现此处的所有功能
SQLTransformer。例如:
from pyspark.ml.feature import SQLTransformerdef column_selector(columns): return SQLTransformer( statement="SELECT {} FROM __THIS__".format(", ".join(columns)) )
要么
def na_dropper(columns): return SQLTransformer( statement="SELECT * FROM __THIS__ WHERe {}".format( " AND ".join(["{} IS NOT NULL".format(x) for x in columns]) ) )
稍加努力,您就可以将SQLAlchemy与Hive方言结合使用来避免手写SQL。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)