特定
vectorizer = TfIDfVectorizer(max_df=0.5,max_features=10000,min_df=2,stop_words='english',use_IDf=True)X_train_tfIDf = vectorizer.fit_transform(X_train_raw)
如果我要查看X_train_tfIDf的输出,我会看一个结构如下的矩阵:
第1列对应于文档1,其中元素是10000个特征的tfIDf分数,第2列对应于文档2 ……依此类推?
解决方法 假设您看到类似于此的输出:(0,18) 0.424688479366(0,6) 0.424688479366(0,4) 0.424688479366(0,14) 0.239262081323(0,17) 0.202366335916(0,5) 0.424688479366(0,1) 0.424688479366(1,17) 0.184426607226(1,8) 0.387039944282(1,15) 0.387039944282(1,0) 0.387039944282(1,2) 0.387039944282(1,13) 0.387039944282(1,7) 0.387039944282(1,11) 0.259205161463(2,14) 0.313686744222(2,17) 0.530628478217(2,9) 0.556791722552(2,16) 0.556791722552(3,14) 0.346483013718(3,17) 0.293053113789(3,11) 0.411875926253(3,10) 0.61500486583(3,3) 0.496182053366(4,14) 0.346483013718(4,17) 0.293053113789(4,11) 0.411875926253(4,12) 0.61500486583
假设一般形式:(A,B)C
答:文件索引
B:特定的词向量索引
C:文件A中单词B的TFIDF分数
这是一个稀疏矩阵.它表示每个文档的单词向量中所有非零值的tfIDf分数.
总结以上是内存溢出为你收集整理的python – 了解Sklearn中Tfidfvectorizer的矩阵输出全部内容,希望文章能够帮你解决python – 了解Sklearn中Tfidfvectorizer的矩阵输出所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)