保留TFIDF结果以使用Scikit for Python预测新内容

保留TFIDF结果以使用Scikit for Python预测新内容,第1张

保留TFIDF结果以使用Scikit for Python预测新内容

我通过保存成功保存了功能列表

vectorizer.vocabulary_
,并通过
CountVectorizer(depre_error="replace",vocabulary=vectorizer.vocabulary_)

以下代码:

corpus = np.array(["aaa bbb ccc", "aaa bbb ddd"])vectorizer = CountVectorizer(depre_error="replace")vec_train = vectorizer.fit_transform(corpus)#Save vectorizer.vocabulary_pickle.dump(vectorizer.vocabulary_,open("feature.pkl","wb"))#Load it latertransformer = TfidfTransformer()loaded_vec = CountVectorizer(depre_error="replace",vocabulary=pickle.load(open("feature.pkl", "rb")))tfidf = transformer.fit_transform(loaded_vec.fit_transform(np.array(["aaa ccc eee"])))

这样可行

tfidf
具有与训练数据相同的特征长度



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5647258.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存