python – 了解Sklearn中Tfidfvectorizer的矩阵输出

python – 了解Sklearn中Tfidfvectorizer的矩阵输出,第1张

概述我在解释Tfidf矢量化器的矩阵输出时遇到了麻烦. 特定 vectorizer = TfidfVectorizer(max_df=0.5, max_features=10000, min_df=2, stop_words='english', use_idf=True)X_train_tfid 我在解释TfIDf矢量化器的矩阵输出时遇到了麻烦.

特定

vectorizer = TfIDfVectorizer(max_df=0.5,max_features=10000,min_df=2,stop_words='english',use_IDf=True)X_train_tfIDf = vectorizer.fit_transform(X_train_raw)

如果我要查看X_train_tfIDf的输出,我会看一个结构如下的矩阵:

第1列对应于文档1,其中元素是10000个特征的tfIDf分数,第2列对应于文档2 ……依此类推?

解决方法 假设您看到类似于此的输出:

(0,18)       0.424688479366(0,6)        0.424688479366(0,4)        0.424688479366(0,14)       0.239262081323(0,17)       0.202366335916(0,5)        0.424688479366(0,1)        0.424688479366(1,17)       0.184426607226(1,8)        0.387039944282(1,15)       0.387039944282(1,0)        0.387039944282(1,2)        0.387039944282(1,13)       0.387039944282(1,7)        0.387039944282(1,11)       0.259205161463(2,14)       0.313686744222(2,17)       0.530628478217(2,9)        0.556791722552(2,16)       0.556791722552(3,14)       0.346483013718(3,17)       0.293053113789(3,11)       0.411875926253(3,10)       0.61500486583(3,3)        0.496182053366(4,14)       0.346483013718(4,17)       0.293053113789(4,11)       0.411875926253(4,12)       0.61500486583

假设一般形式:(A,B)C

答:文件索引
B:特定的词向量索引
C:文件A中单词B的TFIDF分数

这是一个稀疏矩阵.它表示每个文档的单词向量中所有非零值的tfIDf分数.

总结

以上是内存溢出为你收集整理的python – 了解Sklearn中Tfidfvectorizer的矩阵输出全部内容,希望文章能够帮你解决python – 了解Sklearn中Tfidfvectorizer的矩阵输出所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1194054.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存