其他用户提供的基于本地Python的出色答案。但是这就是
nltk方法(以防万一,OP会因为重新发明
nltk库中已经存在的内容而受到惩罚)。
有一个NGRAM模块,人们很少使用
nltk。这不是因为很难读取ngram,而是基于ngram训练模型,其中n>
3将导致大量数据稀疏。
from nltk import ngramssentence = 'this is a foo bar sentences and i want to ngramize it'n = 6sixgrams = ngrams(sentence.split(), n)for grams in sixgrams: print grams
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)