SpaCy:如何加载Google新闻word2vec向量?

SpaCy:如何加载Google新闻word2vec向量?,第1张

SpaCy:如何加载Google新闻word2vec向量

对于spacy 1.x,请将Google新闻矢量加载到gensim中,并转换为新格式(.txt中的每一行都包含一个矢量:string,vec):

from gensim.models.word2vec import Word2Vecfrom gensim.models import KeyedVectorsmodel = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)model.wv.save_word2vec_format('googlenews.txt')

删除.txt的第一行:

tail -n +2 googlenews.txt > googlenews.new && mv -f googlenews.new googlenews.txt

将txt压缩为.bz2:

bzip2 googlenews.txt

创建与SpaCy兼容的二进制文件:

spacy.vocab.write_binary_vectors('googlenews.txt.bz2','googlenews.bin')

将googlenews.bin移至python环境的/lib/python/site-
packages/spacy/data/en_google-1.0.0/vocab/googlenews.bin。

然后加载单词向量:

import spacynlp = spacy.load('en',vectors='en_google')

或稍后再加载:

nlp.vocab.load_vectors_from_bin_loc('googlenews.bin')


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5618017.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存