如何在sklearn中编码分类变量？

标准件手册 • 2022-12-16 • 随笔 • 阅读 17

如何在sklearn中编码分类变量？

建议使用DictVectorizer来生成分类变量的单编码。您可以使用

sparse

参数创建稀疏的CSR矩阵，而不创建密集的numpy数组。我通常不关心多重共线性，也没有注意到我倾向于使用的方法（即LinearSVC，SGDClassifier，基于树的方法）存在问题。

修补DictVectorizer以便为每个分类功能删除一列不是问题-
您只需

DictVectorizer.vocabulary

在

fit

方法末尾删除一个术语即可。（随时欢迎提出要求！）

欢迎分享，转载请注明来源：内存溢出

方法分类变量编码创建

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论