使用Scikit-Learn CountVectorizer根据文本语料库中的出现情况列出词汇表中的单词

使用Scikit-Learn CountVectorizer根据文本语料库中的出现情况列出词汇表中的单词,第1张

使用Scikit-Learn CountVectorizer根据文本语料库中的出现情况列出词汇表中的单词

如果

cv
是您
CountVectorizer
并且
X
是向量语料库,则

zip(cv.get_feature_names(),    np.asarray(X.sum(axis=0)).ravel())

返回提取

(term, frequency)
的语料库中每个不同术语的成对列表
CountVectorizer

(需要一点

asarray
+
ravel
舞蹈来解决中的一些怪癖
scipy.sparse
。)



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5655234.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存