对于spacy 1.x,请将Google新闻矢量加载到gensim中,并转换为新格式(.txt中的每一行都包含一个矢量:string,vec):
from gensim.models.word2vec import Word2Vecfrom gensim.models import KeyedVectorsmodel = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)model.wv.save_word2vec_format('googlenews.txt')
删除.txt的第一行:
tail -n +2 googlenews.txt > googlenews.new && mv -f googlenews.new googlenews.txt
将txt压缩为.bz2:
bzip2 googlenews.txt
创建与SpaCy兼容的二进制文件:
spacy.vocab.write_binary_vectors('googlenews.txt.bz2','googlenews.bin')
将googlenews.bin移至python环境的/lib/python/site-
packages/spacy/data/en_google-1.0.0/vocab/googlenews.bin。
然后加载单词向量:
import spacynlp = spacy.load('en',vectors='en_google')
或稍后再加载:
nlp.vocab.load_vectors_from_bin_loc('googlenews.bin')
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)