如何使用Scikit Learn CountVectorizer获得语料库中的单词频率？_随笔

如何使用Scikit Learn CountVectorizer获得语料库中的单词频率？

cv.vocabulary_

在这种情况下，是dict，其中键是您找到的单词（功能），值是索引，这就是为什么它们是

0, 1, 2,3

。看起来与您的计数很相似，很不幸：)

您需要使用该

cv_fit

对象来获取计数

from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird']cv = CountVectorizer()cv_fit=cv.fit_transform(texts)print(cv.get_feature_names())print(cv_fit.toarray())#['bird', 'cat', 'dog', 'fish']#[[0 1 1 1]# [0 2 1 0]# [1 0 0 1]# [1 0 0 0]]

数组中的每一行都是原始文档（字符串）之一，每一列都是要素（单词），元素是该特定单词和文档的计数。您会看到，如果对每一列求和，则会得到正确的数字

print(cv_fit.toarray().sum(axis=0))#[2 3 2 2]

不过，老实说，我建议您使用

collections.Counter

NLTK或其他东西，除非您有特定的理由使用scikit-learn，因为它会更简单。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5673721.html

如何使用Scikit Learn CountVectorizer获得语料库中的单词频率？

发表评论

评论列表（0条）