本文是自然语言处理集合/NLP的一篇文章,通过在Python中标注日语来分析句子。在这里分享一下,可能对日语初学者有帮助。
如果您是程序开发的爱好者,当您需要在应用程序中添加日语支持时,这是一个简短的指南。这也有帮助。
如何在Python中标记日语在过去的几年中,NLP项目广泛使用多种语言已经成为一种流行趋势。然而,即使支持多种语言,也有一些会被忽略。其中一个是日本人。日语写作没有空格,不容易确定一个词的结尾和另一个词的开头。虽然可以使用高精度的断字器,但是可能使用起来比较困难,英文文档也比较匮乏。
准备安装首先,您需要安装令牌生成器和字典。在本教程中,我们将fugashi与unidic-lite一起使用,您可以像这样安装它们:
pip安装fugashi[unidic-lite]
Fugashi附带了一个脚本,因此您可以在命令行上测试它。输入一些日语,输出会每行一个单词,还有词性等其他信息。
比如在这里输入“东京3天已确认新增感染病例256例,超过限额200例”(中文意思是东京连续3天确认新增感染新冠肺炎病例256例)。
Fugashi提供了词类、词条、词源分类、发音等。虽然fugashi实际上没有标记句子,但EOS的意思是“句子结束”。但在这种情况下,它只是标志着输入的结束。
示例代码现在开始将纯日语文本转换成Python中的单词列表。
进口fuga Shi #“fuga Shi”是一种由日本水果和面粉制成的甜食。text = "麸皮种子,麸皮主料,麸皮种子,日本种子。"# Tagger有词典信息Tagger = fugashi . Tagger()words =[word . surface for word in Tagger(text)]print(* words)# = >;麸皮,麸皮,麸皮,主料,日本麸皮。
这将打印原句子,并在单词之间插入空单元格。在许多情况下,这就是你所需要的,但fugashi还提供了许多其他信息,如词性,词条,广泛的词源分类,发音等。所有这些信息都来自于UNIDIC(https://UNIDIC . ninjal . AC . jp/),这是一部由日本国立日本语研究所(nin jal)提供的词典。
Fugashi是MeCab的打包(https://taku 910 . github . io/MeCab/)中的一个中日文单词分隔符。MeCab在这里做了所有的艰苦工作,但fugashi对它进行了打包,使它更Pythonic化,更容易安装,并避免了一些常见的错误情况。
在英语和其他语言中使用的经典NLP管道中,标记是语音标记之前的单独步骤。但是在日语中,知道词性对于正确设置标记化非常重要,所以通常作为一个常见的任务来解决。默认情况下,将包括词性和其他信息。这也是为什么日语标记生成器常被称为“词法分析器”的原因。
更多:延伸阅读:
https://www . dampfkraft . com/NLP/how-to-tokenize-Japanese . html
https://cotonoha.io
:20570
版权声明:本文内容由网友提供,文中观点仅代表作者本人。本站仅提供信息存储空服务,不拥有所有权并承担相关法律责任。如果发现本网站涉嫌抄袭侵权/非法内容,请发邮件举报。一经核实,本网站将被立即删除。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)