我通过保存成功保存了功能列表
vectorizer.vocabulary_,并通过
CountVectorizer(depre_error="replace",vocabulary=vectorizer.vocabulary_)
以下代码:
corpus = np.array(["aaa bbb ccc", "aaa bbb ddd"])vectorizer = CountVectorizer(depre_error="replace")vec_train = vectorizer.fit_transform(corpus)#Save vectorizer.vocabulary_pickle.dump(vectorizer.vocabulary_,open("feature.pkl","wb"))#Load it latertransformer = TfidfTransformer()loaded_vec = CountVectorizer(depre_error="replace",vocabulary=pickle.load(open("feature.pkl", "rb")))tfidf = transformer.fit_transform(loaded_vec.fit_transform(np.array(["aaa ccc eee"])))
这样可行。
tfidf具有与训练数据相同的特征长度。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)