简短而密集:http : //nlp.stanford.edu/IR-book/html/htmledition/stemming-
and-lemmatization-1.html
词干和词根化的目的都是将单词的屈折形式和有时与派生相关的形式减少为通用的基本形式。
但是,这两个词的风格不同。词干通常是指粗略的启发式过程,该过程会砍掉单词的结尾,以期在大多数时间正确实现此目标,并且通常包括删除派生词缀。词法化通常是指使用单词的词汇和词法分析来正确处理事情,通常旨在仅去除词尾变化并返回单词的基数或字典形式,这被称为引理。
从NLTK文档:
引词化和词干化是规范化的特殊情况。他们为一组相关的单词形式确定规范的代表。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)