- Gensim
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。
它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,
支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口
大家通过官网可以很容易找到自己需要的代码,尤其是安装问题。之前我遇到使用pip install --upgrade gensim安装后,出现DLL无法查找到的问题
from gensim.models.fasttext_corpusfile import train_epoch_sg, train_epoch_cbow importError: DLL load failed: 找不到指定的模块。
从百度的解决方案基本都是
(1)先用pip uninstall +包名命令依次将numpy,scipy,gensim卸载。 (2)再按numpy,scipy,gensim顺序依次安装,能够解决这一问题
但对于已经安装了conda的我来说,应该是numpy,scipy,gensim的版本或者缺少包导致的,于是我上了官网,在官网中找到了正确的安装姿势
conda install -c conda-forge gensim
关于方法的使用,也可以参考官网
官网:https://radimrehurek.com/gensim/
也可以参考text similarity的GitHub上的方案
https://github.com/adsieg/text_similarity
还可以参考NLP Town的相关文章
http://nlp.town/blog/sentence-similarity/
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)