是的,我可以确认您的解决方案是正确的。您从pip下载的spaCy的版本为v2.0,其中包括许多新功能,但对API进行了一些更改。其中之一是,所有语言数据都已移至子模块,
spacy.lang以保持内容整洁和井井有条。因此
spacy.en,您现在无需从使用导入
spacy.lang.en。
- from spacy.en import English+ from spacy.lang.en import English
但是,还值得一提的是,您在运行时下载
spacy downloaden的内容与并不相同
spacy.lang.en。spaCy附带的语言数据包括静态数据,例如标记化规则,停用词或词形化表。
en您可以下载的软件包是统计模型的快捷方式
en_core_web_sm。它包括语言数据以及二进制权重,以使spaCy可以预测词性标签,依赖项和命名实体。
en我实际上不建议下载,而是建议使用完整的模型名称,这样可以更清楚地了解发生了什么:
python -m spacy download en_core_web_smnlp = spacy.load("en_core_web_sm")
致电时
spacy.load,spaCy执行以下 *** 作:
- 查找已安装的名称为
"en_core_web_sm"
(包装或快捷方式链接)的模型。 - 阅读它
meta.json
,并检查它的使用(在这种情况下,语言spacy.lang.en
),它的处理管道应该是什么样子(在这种情况下,tagger
,parser
和ner
)。 - 初始化语言类并向其中添加管道。
- 从模型数据中加载二进制权重,以便管道组件(例如标记器,解析器或实体识别器)可以进行预测。
有关更多详细信息,请参阅文档中的此部分。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)