集成了自然语言处理_生活百科

nlp语言分析思路(nlp自然语言处理引擎)

网上更多新鲜资讯，奇幻工作技巧，关注原创【飞鱼在余浪】(每日更新)

本文是自然语言处理集合/NLP的一篇文章，通过在Python中标注日语来分析句子。在这里分享一下，可能对日语初学者有帮助。

如果您是程序开发的爱好者，当您需要在应用程序中添加日语支持时，这是一个简短的指南。这也有帮助。

如何在Python中标记日语

在过去的几年中，NLP项目广泛使用多种语言已经成为一种流行趋势。然而，即使支持多种语言，也有一些会被忽略。其中一个是日本人。日语写作没有空格，不容易确定一个词的结尾和另一个词的开头。虽然可以使用高精度的断字器，但是可能使用起来比较困难，英文文档也比较匮乏。

准备安装

首先，您需要安装令牌生成器和字典。在本教程中，我们将fugashi与unidic-lite一起使用，您可以像这样安装它们:

pip安装fugashi[unidic-lite]

Fugashi附带了一个脚本，因此您可以在命令行上测试它。输入一些日语，输出会每行一个单词，还有词性等其他信息。

比如在这里输入“东京3天已确认新增感染病例256例，超过限额200例”(中文意思是东京连续3天确认新增感染新冠肺炎病例256例)。

Fugashi提供了词类、词条、词源分类、发音等。虽然fugashi实际上没有标记句子，但EOS的意思是“句子结束”。但在这种情况下，它只是标志着输入的结束。

示例代码

现在开始将纯日语文本转换成Python中的单词列表。

进口fuga Shi #“fuga Shi”是一种由日本水果和面粉制成的甜食。text = "麸皮种子，麸皮主料，麸皮种子，日本种子。"# Tagger有词典信息Tagger = fugashi . Tagger()words =[word . surface for word in Tagger(text)]print(* words)# = >；麸皮，麸皮，麸皮，主料，日本麸皮。

这将打印原句子，并在单词之间插入空单元格。在许多情况下，这就是你所需要的，但fugashi还提供了许多其他信息，如词性，词条，广泛的词源分类，发音等。所有这些信息都来自于UNIDIC(https://UNIDIC . ninjal . AC . jp/)，这是一部由日本国立日本语研究所(nin jal)提供的词典。

Fugashi是MeCab的打包(https://taku 910 . github . io/MeCab/)中的一个中日文单词分隔符。MeCab在这里做了所有的艰苦工作，但fugashi对它进行了打包，使它更Pythonic化，更容易安装，并避免了一些常见的错误情况。

在英语和其他语言中使用的经典NLP管道中，标记是语音标记之前的单独步骤。但是在日语中，知道词性对于正确设置标记化非常重要，所以通常作为一个常见的任务来解决。默认情况下，将包括词性和其他信息。这也是为什么日语标记生成器常被称为“词法分析器”的原因。

集成了自然语言处理

发表评论

评论列表（0条）