如何避免NLTK的句子标记词在缩写词上出现分裂？

conception • 2022-12-15 • 随笔 • 阅读 23

如何避免NLTK的句子标记词在缩写词上出现分裂？

我认为缩写列表中的 美国小写字母 将对您有效。

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameterspunkt_param = PunktParameters()abbreviation = ['u.s.a', 'fig']punkt_param.abbrev_types = set(abbreviation)tokenizer = PunktSentenceTokenizer(punkt_param)tokenizer.tokenize('Fig. 2 shows a U.S.A. map.')

它返回给我：

['Fig. 2 shows a U.S.A. map.']

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5631083.html

缩写美国句子分裂标记

打赏

微信扫一扫

支付宝扫一扫

conception 一级用户组

更新h5py数据集

上一篇 2022-12-16

了解python的名称绑定

下一篇 2022-12-15

发表评论

登录后才能评论

评论列表（0条）