建议使用DictVectorizer来生成分类变量的单编码。您可以使用
sparse参数创建稀疏的CSR矩阵,而不创建密集的numpy数组。我通常不关心多重共线性,也没有注意到我倾向于使用的方法(即LinearSVC,SGDClassifier,基于树的方法)存在问题。
修补DictVectorizer以便为每个分类功能删除一列不是问题-
您只需
DictVectorizer.vocabulary在
fit方法末尾删除一个术语即可。(随时欢迎提出要求!)
欢迎分享,转载请注明来源:内存溢出
建议使用DictVectorizer来生成分类变量的单编码。您可以使用
sparse参数创建稀疏的CSR矩阵,而不创建密集的numpy数组。我通常不关心多重共线性,也没有注意到我倾向于使用的方法(即LinearSVC,SGDClassifier,基于树的方法)存在问题。
修补DictVectorizer以便为每个分类功能删除一列不是问题-
您只需
DictVectorizer.vocabulary在
fit方法末尾删除一个术语即可。(随时欢迎提出要求!)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)