使用Scikit-Learn CountVectorizer根据文本语料库中的出现情况列出词汇表中的单词

9600gt驱动 • 2022-12-16 • 随笔 • 阅读 32

使用Scikit-Learn CountVectorizer根据文本语料库中的出现情况列出词汇表中的单词

如果

cv

是您

CountVectorizer

并且

是向量语料库，则

zip(cv.get_feature_names(),    np.asarray(X.sum(axis=0)).ravel())

返回提取

(term, frequency)

的语料库中每个不同术语的成对列表

CountVectorizer

。

（需要一点

asarray

ravel

舞蹈来解决中的一些怪癖

scipy.sparse

。）

欢迎分享，转载请注明来源：内存溢出

语料语料库词汇表向量怪癖

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论