将分类数据传递到Sklearn决策树_随笔

将分类数据传递到Sklearn决策树

与接受的答案相反，我更愿意使用Scikit-
Learn提供的工具来实现此目的。这样做的主要原因是可以轻松地将它们集成到管道中。

Scikit-Learn本身提供了很好的类来处理分类数据。你不想编写自定义函数，你应该使用

LabelEnprer

它
专门为此设计的 。

请参考文档中的以下代码：

from sklearn import preprocessingle = preprocessing.LabelEnprer()le.fit(["paris", "paris", "tokyo", "amsterdam"])le.transform(["tokyo", "tokyo", "paris"])

这会自动将它们编码为数字，以供您的机器学习算法使用。现在，这也支持从整数返回字符串。您可以通过简单地

inverse_transform

如下调用来做到这一点：

list(le.inverse_transform([2, 2, 1]))

这将返回

['tokyo', 'tokyo', 'paris']

。

还要注意，对于其他许多分类器，除了决策树（例如逻辑回归或SVM）之外，您还想使用One-
Hot编码
对分类变量进行编码。Scikit-
learn也通过

OneHotEnprer

该类对此提供支持。

希望这可以帮助！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5643989.html

将分类数据传递到Sklearn决策树

发表评论

评论列表（0条）