如何标记由两个单词合并而没有空格的单词_随笔

如何标记由两个单词合并而没有空格的单词

有一个看

DictionaryCompoundWordTokenFilter

作为在Solr的说明

该过滤器使用组成词的词典将复合词拆分或分解为单个词。每个输入令牌均不变地传递。如果还可以将其分解为子字，则每个子字也将在同一逻辑位置添加到流中。
在：“ Donaudampfschiff dummkopf”中
要过滤的令牌生成器：“ Donaudampfschiff”（1），“ dummkopf”（2），
输出：“ Donaudampfschiff”（1），“ Donau”（1），“ dampf”（1），“ schiff”（1），“
dummkopf”（2），“ dumm”（2），“ kopf”（2）

如您在示例配置中看到的，您将需要使用您想要拆分的语言的字典，在示例中，他们使用

germanwords.txt

，其中包含要分解的单词（如果找到的话）。在您的情况下，这将是

love

和

live

。

<analyzer>  <tokenizer />  <filter  dictionary="germanwords.txt"/></analyzer>

对于Lucene来说

org.apache.lucene.analysis.compound.DictionaryCompoundWordTokenFilter

。该代码可在github上找到。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/4952714.html

如何标记由两个单词合并而没有空格的单词

发表评论

评论列表（0条）