如何避免NLTK的句子标记词在缩写词上出现分裂?

如何避免NLTK的句子标记词在缩写词上出现分裂?,第1张

如何避免NLTK的句子标记词在缩写词上出现分裂?

我认为缩写列表中的 美国小写字母 将对您有效。

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameterspunkt_param = PunktParameters()abbreviation = ['u.s.a', 'fig']punkt_param.abbrev_types = set(abbreviation)tokenizer = PunktSentenceTokenizer(punkt_param)tokenizer.tokenize('Fig. 2 shows a U.S.A. map.')

它返回给我:

['Fig. 2 shows a U.S.A. map.']


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5631083.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存