IK分词器如何添加新词到字典?

IK分词器如何添加新词到字典?,第1张

IKAnalyzer.cfg.xml中:

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<comment>IK Analyzer 扩展配置</comment>

<!--用户可以在这里配置自己的扩展字典-->

<entry key="ext_dict">/word.dic</entry>

<!--用户可以在这里配置自己的扩展停止词字典-->

<entry key="ext_stopwords">/ext_stopword.dic/stopwords1.dic</entry>

</properties>

首先准备环境

ElasticSearch : https://mirrors.huaweicloud.com/elasticsearch/?C=N&O=D

logstash : https://mirrors.huaweicloud.com/logstash/?C=N&O=D

kibana : https://mirrors.huaweicloud.com/kibana/?C=N&O=D

ik : https://github.com/medcl/elasticsearch-analysis-ik/tree/v7.8.0

ElasticSearch 是一个实时分布式搜索和分析引擎,主要用于全文搜索,结构化搜索,分析以及将这三者混合使用。

Lucene 是一个全文检索引擎的架构。

ElasticSearch vs Solr 总结

(1)es基本是开箱即用,非常简单。Solr安装略微复杂一丢丢,可关注( solr6.6教程-基础环境搭建(一) )

(2)Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能。

(3)Solr 支持更多格式的数据,比如JSON、XML、CSV,而 Elasticsearch 仅支持json文件格式。

(4)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供,例如图形化界面需要kibana友好支撑

(5)Solr 查询快,但更新索引时慢(即插入删除慢),用于电商等查询多的应用;

ES建立索引快(即查询慢),即实时性查询快,用于facebook新浪等搜索。

Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。

(6)Solr比较成熟,有一个更大,更成熟的用户、开发和贡献者社区,而 Elasticsearch相对开发维护者较少,更新太快,学习使用成本较高。

ik分词器:

ik提供了两个分词算法:ik_smart和ik_max_word,其中ik_smart为最少切分,ik_max_word为最细粒度切分。

ik_smart:

ik_max_word:

ik分词器可以增加自己的配置,自己配置词典。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/bake/11860923.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存