$ pip install lda --user
示例
from __future__ import division, print_function
import numpy as np
import lda
import lda.datasets
# document-term matrix
X = lda.datasets.load_reuters()
print("指困type(X): {}".format(type(X)))
print("shape: {}\n".format(X.shape))
print(X[:5, :5])
'''输出:告蠢
type(X): <type 'numpy.ndarray'>
shape: (395L, 4258L)
[[ 1 0 1 0 0]
[ 7 0 2 0 0]
[ 0 0 0 1 10]
[ 6 0 1 0 0]
[ 0 0 0 2 14]]
'唯友念''
使用路透社新闻数据烂誉的一个子集:饥仿段R8,包含8类新闻。本文直接读取清洗后的R8,清洗内容包含:去掉特殊字符,标点符号,停用词和低频词大誉,且英文文本不需要分词。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)