>西班牙语应该给我西班牙.
>英语应该给我英格兰.
>美国应该给我美国.
>尼日利亚应该给我尼日利亚.
>希腊人(复数)应该给我希腊.
>波多黎各人(复数)应该给我波多黎各.
>葡萄牙人应该给我葡萄牙.
我对NLTK模块的Porter,Lancaster和snowball词干器进行了一些实验.但Porter和snowball根本不会改变令牌,而兰开斯特则过于咄咄逼人.例如,美国人的Lancaster词干是“Am”,这是非常糟糕的屠杀.我也使用WordNet lemmatizer玩了一些,没有成功.
有没有办法获得上述结果,即使它只适用于国家?
解决方法 您可能想要查看Unicode的CLDR(公共区域设置数据存储库):http://cldr.unicode.org/
它包含可能有用的区域和语言列表,因为您可以使用共享的标准ISO 639代码(en,de,fr等)将它们映射到一起.
这是一个有用的JsON存储库:
https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en
查看那里的territorIEs.Json和languages.Json文件.
总结以上是内存溢出为你收集整理的Python中的民族智能词干/ lematizing全部内容,希望文章能够帮你解决Python中的民族智能词干/ lematizing所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)