Python中的民族智能词干 lematizing

Python中的民族智能词干 lematizing,第1张

概述我正在使用 Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是: >西班牙语应该给我西班牙. >英语应该给我英格兰. >美国应该给我美国. >尼日利亚应该给我尼日利亚. >希腊人(复数)应该给我希腊. >波多黎各人(复数)应该给我波多黎各. >葡萄牙人应该给我葡萄牙. 我对NLTK模块的Porter,Lancaster和Snowball词干器进行了一些实验.但Porter和S 我正在使用 Python,我想找到一些词的根源,主要是指国家.一些证明我需要的例子是:

>西班牙语应该给我西班牙.
>英语应该给我英格兰.
>美国应该给我美国.
>尼日利亚应该给我尼日利亚.
>希腊人(复数)应该给我希腊.
>波多黎各人(复数)应该给我波多黎各.
>葡萄牙人应该给我葡萄牙.

我对NLTK模块的Porter,Lancaster和snowball词干器进行了一些实验.但Porter和snowball根本不会改变令牌,而兰开斯特则过于咄咄逼人.例如,美国人的Lancaster词干是“Am”,这是非常糟糕的屠杀.我也使用WordNet lemmatizer玩了一些,没有成功.

有没有办法获得上述结果,即使它只适用于国家?

解决方法 您可能想要查看Unicode的CLDR(公共区域设置数据存储库):
http://cldr.unicode.org/

它包含可能有用的区域和语言列表,因为您可以使用共享的标准ISO 639代码(en,de,fr等)将它们映射到一起.

这是一个有用的JsON存储库:

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看那里的territorIEs.Json和languages.Json文件.

总结

以上是内存溢出为你收集整理的Python中的民族智能词干/ lematizing全部内容,希望文章能够帮你解决Python中的民族智能词干/ lematizing所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1196252.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存