我认为缩写列表中的 美国小写字母 将对您有效。
from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameterspunkt_param = PunktParameters()abbreviation = ['u.s.a', 'fig']punkt_param.abbrev_types = set(abbreviation)tokenizer = PunktSentenceTokenizer(punkt_param)tokenizer.tokenize('Fig. 2 shows a U.S.A. map.')
它返回给我:
['Fig. 2 shows a U.S.A. map.']
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)