与接受的答案相反,我更愿意使用Scikit-
Learn提供的工具来实现此目的。这样做的主要原因是可以轻松地将它们集成到管道中。
Scikit-Learn本身提供了很好的类来处理分类数据。你不想编写自定义函数,你应该使用
LabelEnprer它
专门为此设计的 。
请参考文档中的以下代码:
from sklearn import preprocessingle = preprocessing.LabelEnprer()le.fit(["paris", "paris", "tokyo", "amsterdam"])le.transform(["tokyo", "tokyo", "paris"])
这会自动将它们编码为数字,以供您的机器学习算法使用。现在,这也支持从整数返回字符串。您可以通过简单地
inverse_transform如下调用来做到这一点:
list(le.inverse_transform([2, 2, 1]))
这将返回
['tokyo', 'tokyo', 'paris']。
还要注意,对于其他许多分类器,除了决策树(例如逻辑回归或SVM)之外,您还想使用One-
Hot编码对分类变量进行编码。Scikit-
learn也通过
OneHotEnprer该类对此提供支持。
希望这可以帮助!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)