从Spark（pyspark）的管道中的StringIndexer阶段获取标签

销售易 • 2022-12-16 • 随笔 • 阅读 31

Pipeline

：

from pyspark.ml.feature import StringIndexer, StringIndexerModeldf = spark.createDataframe([("a", "foo"), ("b", "bar")], ("x1", "x2"))pipeline = Pipeline(stages=[    StringIndexer(inputCol=c, outputCol='{}_index'.format(c))    for c in df.columns])model = pipeline.fit(df)

摘自

stages

：

# Accessing _java_obj shouldn't be necessary in Spark 2.3+{x._java_obj.getOutputCol(): x.labels for x in model.stages if isinstance(x, StringIndexerModel)}{'x1_index': ['a', 'b'], 'x2_index': ['foo', 'bar']}

从转换后的元数据

Dataframe

：

indexed = model.transform(df){c.name: c.metadata["ml_attr"]["vals"]for c in indexed.schema.fields if c.name.endswith("_index")}{'x1_index': ['a', 'b'], 'x2_index': ['foo', 'bar']}

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5631992.html

数据示例摘自获取转换

打赏

微信扫一扫

支付宝扫一扫

销售易一级用户组

0 0

Django SMTPAuthenticationError

上一篇 2022-12-15

如何在一行代码中复制字典并对其进行修改

下一篇 2022-12-15

发表评论

登录后才能评论

从Spark（pyspark）的管道中的StringIndexer阶段获取标签

发表评论

评论列表（0条）