- 分布式搜索elasticsearch基础入门
- 1.初识elasticserach
- 1.1 了解ES
- 1.2 倒排序引
- 1.3 ES的一些概念
- 1.4.安装es、Kibana
- 1.4.1 部署单点es
- 1.4.2 部署kibana
- 1.4.3 安装IK分词器
- 2.索引库 *** 作
- 2.1 mapping映射属性
- 2.2 索引库的CRUD
- 2.1.1 创建索引库
- 2.1.2 查看、删除索引库
- 2.1.3 修改索引库
- 3.文档 *** 作
- 3.1 新增文档
- 3.2 查询文档
- 3.3 删除文档
- 3.4 修改文档
- 3.5 (文档 *** 作有哪些?)
- 4.RestClient *** 作索引库
- 4.1 初始化JavaRestClient
- 4.2 创建索引库
- 4.3 删除索引库
- 4.4 判断索引库是否存在
- 5.RestClient *** 作文档
- 5.1 初始化JavaRestClient
- 5.2 新增文档
- 5.3 查询文档
- 5.4 修改文档
- 5.5 删除文档
- 5.6 总结:文档 *** 作的基本步骤
- 6.批量导入文档
学习地址
1.初识elasticserach 1.1 了解ES什么是elasticserach
elasticserach是一款非常强大的开源搜索引擎,可以帮助我们从海量的数据中快速找到需要的内容。
elasticserach结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域。
elasticserach是elastic stack的核心,负责存储、搜索、分析数据。
elasticseach的发展
Lucene是一个Java语言的搜索引擎类库,是Apache公司的顶级项目,由DougCutting于1999年研发。
Lucene的优势:
- 易扩展
- 高性能(基于倒排索引)
Lucene的缺点:
- 只限于Java语言开发
- 学习曲线陡峭
- 不支持水平扩展
相比与Lucene,elasticsearch具备下列优势: - 支持分布式,可水平扩展
- 支持Restful接口,可被任何语言调用
总结
- elasticsearch是一个开源的分布式搜索引擎,可以用来实现搜索、日志统计、分析、系统监控等功能
- elasticstack(ELK)是以elasticsearch为核心的技术栈,包括beats、Logstash、kibana、elasticsearch
- Lucene是Apache的开源搜索引擎类库,提供了搜索引擎的核心API
正向索引和倒排索引
传统数据库(如MySQL)采用正向索引,例如给下表(tb_goods)中的id创建索引:
elasticsearch采用倒排索引:
- 文档(document):每条数据就是一个文档
- 词条(term):文档按照语义分成的词语
总结
什么是文档和词条?
- 每一条数据就是一个文档
- 对文档中的内容分词,得到的词语就是词条
什么是正向索引?
- 基于文档id创建索引,查询词条时必须先找到文档,而后判断是否包含词条
什么是倒排索引?
- 对文档内容分词,对词条创建索引,并记录词条所在文档的信息。查询时先根据词条查询到文档id,而后获取到文档
文档
elasticserach是面向文档存储的,可以是数据库中的一条商品数据,一个订单信息。文档数据会被序列化为json格式后存储在elasticserach中。
索引(Index)
- 索引(index):相同类型的文档的集合
- 映射(mapping):索引中文档的字段约束信息,类似表的结构约束
概念对比
MySQL | Elasticserach | 说明 |
---|---|---|
Table | Index | 索引(index),就是文档的集合,类似数据库里的表(table) |
Row | Document | 文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式 |
Column | Field | 字段(Field),就是JSON文档中的字段,类似于数据库中的列(Column) |
Schema | Mapping | Mapping(映射)是索引中文档的约束,例如字段类型的约束。类似数据库的表结构(Schema) |
SQL | DSL | DSL是elasticsearch提供的JSON风格的请求语句,用来 *** 作elasticserach,实现CRUD |
架构
MySQL:擅长事务类型 *** 作,可以确保数据的安全和一致性
Elasticsearch:擅长海量数据的搜索、分析、计算
总结
文档:一条数据就是一个文档,es中式Json格式
字段:Json文档中的字段
索引:同类型文档的集合
映射:索引中文档的约束,比如字段名称、类型
elasticserach与数据库的关系:
- 数据库负责事务类型 *** 作
- elasticserach负责海量数据的搜索、分析、计算
1. 创建网络
因为我们还需要部署kibana容器,因此需要让es和kibana容器互联。这里先创建一个网络。
docker network create es-net
2. 加载镜像
DockerHub官网搜索拉取镜像:地址
docker pull elasticsearch
将其上传到虚拟机中,然后运行命令加载即可:
# 导入数据
docker load -i es.tar
还有kibana
的tar包也需要这样做。
# 导入数据
docker load -i kibana.tar
# 或者官网拉取镜像
docker pull kibana
3. 运行
运行docker命令,部署单点es:
docker run -d \
--name es \
-e ES_JAVA_OPTS="-Xms512m -Xmx512m" \
-e "discovery.type=single-node" \
-v es-logs:/usr/share/elasticsearch/logs \
-v es-config:/usr/share/elasticsearch/config \
-v es-data:/usr/share/elasticsearch/data \
-v es-plugins:/usr/share/elasticsearch/plugins \
--privileged \
--network es-net \
-p 9200:9200 \
-p 9300:9300 \
elasticsearch:8.1.2
命令解释:
-e "cluster.name=es-docker-cluster"
:设置集群名称-e "http.host=0.0.0.0"
:监听的地址,可以外网访问-e ES_JAVA_OPTS="-Xms512m -Xmx512m"
:内存大小-e "discovery.type=single-node"
:非集群模式-v es-data:/usr/share/elasticsearch/data
:挂载逻辑卷,绑定es的数据目录-v es-logs:/usr/share/elasticsearch/logs
:挂载逻辑卷,绑定es的日志目录-v es-plugins:/usr/share/elasticsearch/plugins
:挂载逻辑卷,绑定es的插件目录--privileged
:授予逻辑卷访问权--network es-net
:加入一个名为es-net的网络中-p 9200:9200
:端口映射配置
在浏览器中输入:ip地址:9200 即可看到elasticsearch的响应结果:
1.4.2 部署kibanakibana可以给我们提供一个elasticsearch的可视化界面,便于我们学习。
1. 部署
运行docker命令,部署kibana
docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=es-net \
-p 5601:5601 \
kibana:7.12.1
--network es-net
:加入一个名为es-net的网络中,与elasticsearch在同一个网络中-e ELASTICSEARCH_HOSTS=http://es:9200"
:设置elasticsearch的地址,因为kibana已经与elasticsearch在一个网络,因此可以用容器名直接访问elasticsearch-p 5601:5601
:端口映射配置
kibana启动一般比较慢,需要多等待一会,可以通过命令:
docker logs -f kibana
此时,在浏览器输入地址访问:ip地址:5601,即可看到结果
2. DevTools
kibana中提供了一个DevTools界面:
这个界面中可以编写DSL来 *** 作elasticsearch。并且对DSL语句有自动补全功能。
1.4.3 安装IK分词器分词器
es在创建倒排索引时需要对文档分词;在搜索时,需要对用户输入内容分词,默认的分词规则对中文不太友好。在kibana的DevTools中测试;
POST /_analyze
{
"analyzer":"standard",
"text":"黑马程序员学习java太棒了!"
}
语法说明:
- POST:请求方式
- /_analyze:请求路径,这里省略了ip:9200,由kibana帮我们补充
- 请求参数,json风格:
- analyzer:分词器类型,这里是默认的standard分词器
- text:要分词的内容
处理中文分词,一般使用Ik分词器,下载地址
1.在线安装ik插件(较慢)
# 进入容器内部
docker exec -it elasticsearch /bin/bash
# 在线下载并安装
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip
#退出
exit
#重启容器
docker restart elasticsearch
2. 离线安装ik插件(推荐)
1.查看数据卷目录
安装插件需要知道elasticsearch的plugins目录位置,而我们用了数据卷挂载,因此需要查看elasticsearch的数据卷目录,通过下面命令查看:
docker volume inspect es-plugins
显示结果:
[
{
"CreatedAt": "2022-05-08T10:12:24+08:00",
"Driver": "local",
"Labels": null,
"Mountpoint": "/var/lib/docker/volumes/es-plugins/_data",
"Name": "es-plugins",
"Options": null,
"Scope": "local"
}
]
说明plugins目录被挂载到了:/var/lib/docker/volumes/es-plugins/_data
这个目录中。
2 解压缩分词器安装包
下面我们需要把课前资料中的ik分词器解压缩,重命名为ik
3 上传到es容器的插件数据卷中
也就是/var/lib/docker/volumes/es-plugins/_data
:
4 重启容器
# 4、重启容器
docker restart es
# 查看es日志
docker logs -f es
5 测试:
IK分词器包含两种模式:
-
ik_smart
:最少切分 -
ik_max_word
:最细切分
GET /_analyze
{
"analyzer": "ik_max_word",
"text": "黑马程序员学习java太棒了"
}
结果:
{
"tokens" : [
{
"token" : "黑马",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "程序员",
"start_offset" : 2,
"end_offset" : 5,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "程序",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "员",
"start_offset" : 4,
"end_offset" : 5,
"type" : "CN_CHAR",
"position" : 3
},
{
"token" : "学习",
"start_offset" : 5,
"end_offset" : 7,
"type" : "CN_WORD",
"position" : 4
},
{
"token" : "java",
"start_offset" : 7,
"end_offset" : 11,
"type" : "ENGLISH",
"position" : 5
},
{
"token" : "太棒了",
"start_offset" : 11,
"end_offset" : 14,
"type" : "CN_WORD",
"position" : 6
},
{
"token" : "太棒",
"start_offset" : 11,
"end_offset" : 13,
"type" : "CN_WORD",
"position" : 7
},
{
"token" : "了",
"start_offset" : 13,
"end_offset" : 14,
"type" : "CN_CHAR",
"position" : 8
}
]
}
3. 扩展词词典
随着互联网的发展,出现了很多新的词语,在原有的词汇列表中并不存在。
所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能。
1)打开IK分词器config目录:
2)在IKAnalyzer.cfg.xml配置文件内容添加:
DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置comment>
<entry key="ext_dict">ext.dicentry>
properties>
3)新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改
传智播客
奥力给
4)重启elasticsearch
docker restart es
# 查看 日志
docker logs -f elasticsearch
日志中已经成功加载ext.dic配置文件
5)测试效果:
GET /_analyze
{
"analyzer": "ik_max_word",
"text": "传智播客Java就业超过90%,奥力给!"
}
注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑
4. 停用词词典
在互联网项目中,在网络间传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索时也应该忽略当前词汇。
IK分词器也提供了强大的停用词功能,让我们在索引时就直接忽略当前的停用词汇表中的内容。
1)IKAnalyzer.cfg.xml配置文件内容添加:
DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置comment>
<entry key="ext_dict">ext.dicentry>
<entry key="ext_stopwords">stopword.dicentry>
properties>
3)在 stopword.dic 添加停用词
习大大
4)重启elasticsearch
# 重启服务
docker restart es
docker restart kibana
# 查看 日志
docker logs -f es
日志中已经成功加载stopword.dic配置文件
5)测试效果:
GET /_analyze
{
"analyzer": "ik_max_word",
"text": "传智播客Java就业率超过95%,习大大都点赞,奥力给!"
}
注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑
5. 总结
分词器的作用是什么?
- 创建倒排索引时对文档分词
- 用户搜索时,对输入的内容分词
IK分词器的几种模式?
- ik_smart:只能切分,粗粒度
- ik_max_word:最细切分,细粒度
IK分词器如何扩展词条?如何停用词条?
- 利用config目录IKAnalyzer.cfg.xml文件添加拓展词典和停用词典
- 在词典中添加拓展词条或者停用词条
mapping属性
mapping是对索引库中文档的约束,常见的mapping属性包括:
-
type:字段数据类型,常见的简单类型有:
- 字符串:text(可分词的文本)、keyword(精确值,例如:国家、品牌、IP地址)
- 数值:long、integer、short、byte、double、float
- 布尔:boolean
- 日期:date
- 对象:object
-
index:是否创建索引,默认为true
-
analyzer:使用哪种分词器
-
properties:该字段的子字段
ES中通过Restful请求 *** 作索引库、文档。请求内容用DSL语句来表示,创建索引库和mapping的DSL语法如下:
PUT /索引库名称
{
"mappings":{
"properties":{
"字段名":{
"type": "text",
"analyzer": "ik_smart"
},
"字段名2":{
"type": "keyword",
"index": "false"
},
"字段名3":{
"properties":{
"子字段":{
"type": "keyword"
}
}
},
//...略
}
}
}
# 创建索引库
PUT /heima
{
"mappings": {
"properties": {
"info":{
"type": "text",
"analyzer": "ik_smart"
},
"email":{
"type": "keyword",
"index": false
},
"name":{
"type": "object",
"properties": {
"firstName":{
"type": "keyword"
},
"lastName":{
"type": "keyword"
}
}
}
}
}
}
2.1.2 查看、删除索引库
查看索引库的语法:
GET /索引库名
示例:
GET /heima
删除索引库的语法:
DELETE /索引库名
示例:
DELETE /heima
2.1.3 修改索引库
索引库和mapping一旦创建无法修改,但是可以添加新的字段,语法如下:
PUT /索引库名/_mapping
{
"properties:" {
"新字段名":{
"type": "integer"
}
}
}
示例
PUT /heima/_mapping
{
"properties:" {
"age":{
"type": "integer"
}
}
}
3.文档 *** 作
3.1 新增文档
新增文档的DSL语法如下:
POST /索引库名/_doc/文档id
{
"字段1": "值1",
"字段2": "值2",
"字段1": {
"子属性1": "值3",
"子属性2": "值4"
},
// ...
}
示例:
POST /heima/_doc1
{
"info": "高级程序员",
"email": "[email protected]",
"name": {
"firstName": "云",
"lastName": "赵"
}
}
3.2 查询文档
查看文档语法:
GET /索引库名/_doc/文档id
示例:
GET /heima/_doc/1
3.3 删除文档
删除索引库的语法:
DELETE /索引库名/_doc/文档id
示例
DELETE /heima/_doc/1
3.4 修改文档
方式一:全量修改,会删除旧文档,添加文档
PUT /索引库名/_doc/文档id
{
"字段1": "值1",
"字段2": "值2",
// ...略
}
示例:
PUT /heima/_doc/1
{
"info": "高级程序员",
"email": "[email protected]",
"name": {
"firstName": "云",
"lastName": "赵"
}
}
方式二:增量修改,修改指定字段值
POST /索引库名/_update/文档id
{
"doc": {
"字段名": "新的值",
}
}
示例
POST /heima/_update/1
{
"doc": {
"email": "[email protected]"
}
}
3.5 (文档 *** 作有哪些?)
- 创建文档:POST/索引库名/_doc/文档id{json文档}
- 查询文档:GET/索引库名/_doc/文档id
- 删除文档:DELETE/索引库名/_doc/文档id
- 修改文档:
- 全量修改:PUT/索引库名/_doc/文档id{json文档}
- 增量修改:POST/索引库名/_update/文档id{“doc”:{字段}}
什么是RestClient
ES官方提供了各种不同语言的客户端,用来 *** 作ES。这些客户端的本质就是组装DSL语句,通过http请求发送给ES。官方文档地址:链接
4.1 初始化JavaRestClient- 引入es的RestHighLevelClient依赖:
<dependency>
<groupId>org.elasticsearch.clientgroupId>
<artifactId>elasticsearch-rest-high-level-clientartifactId>
<version>7.12.1version>
dependency>
- 覆盖默认的ES版本:
<properties>
<java.version>1.8java.version>
<elasticsearch.version>7.12.1elasticsearch.version>
properties>
- 初始化RestHighLevelClient:
//客户端
private RestHighLevelClient client;
@BeforeEach
void setUp() {
this.client = new RestHighLevelClient(RestClient.builder(
HttpHost.create("http://192.168.81.128:9200")
));
}
@AfterEach
void tearDown() throws IOException {
this.client.close();
}
4.2 创建索引库
创建索引代码如下:
@Test
void testCreateHotelIndex() throws IOException {
//1.创建Request对象
CreateIndexRequest request = new CreateIndexRequest("hotel");
//2.准备请求的参数
request.source("{\n" +
" \"mappings\": {\n" +
" \"properties\": {\n" +
" \"id\": {\n" +
" \"type\": \"keyword\"\n" +
" },\n" +
" \"name\": {\n" +
" \"type\": \"text\",\n" +
" \"analyzer\": \"ik_max_word\",\n" +
" \"copy_to\": \"all\"\n" +
" },\n" +
" \"address\":{\n" +
" \"type\": \"keyword\",\n" +
" \"index\": false\n" +
" },\n" +
" \"price\":{\n" +
" \"type\": \"integer\"\n" +
" },\n" +
" \"score\":{\n" +
" \"type\": \"integer\"\n" +
" },\n" +
" \"brand\":{\n" +
" \"type\": \"keyword\",\n" +
" \"copy_to\": \"all\"\n" +
" },\n" +
" \"city\":{\n" +
" \"type\": \"keyword\"\n" +
" },\n" +
" \"starName\":{\n" +
" \"type\": \"keyword\"\n" +
" },\n" +
" \"business\":{\n" +
" \"type\": \"keyword\",\n" +
" \"copy_to\": \"all\"\n" +
" },\n" +
" \"location\":{\n" +
" \"type\": \"geo_point\"\n" +
" },\n" +
" \"pic\":{\n" +
" \"type\": \"keyword\",\n" +
" \"index\": false\n" +
" },\n" +
" \"all\":{\n" +
" \"type\": \"text\",\n" +
" \"analyzer\": \"ik_max_word\"\n" +
" }\n" +
" }\n" +
" }\n" +
"}", XContentType.JSON);
//3.发送请求
client.indices().create(request, RequestOptions.DEFAULT);
}
4.3 删除索引库
- 删除索引库代码如下:
@Test
void testDelteHoteIndex() throws IOException {
//1.创建Request对象
DeleteIndexRequest request = new DeleteIndexRequest("hotel");
//2.发起请求
client.indices().delete(request,RequestOptions.DEFAULT);
}
4.4 判断索引库是否存在
- 判断索引库是否存在:
@Test
void testExistsHotelIndex() throws IOException {
//1.创建Request对象
GetIndexRequest request = new GetIndexRequest("hotel");
//2.发起请求
boolean exists = client.indices().exists(request,RequestOptions.DEFAULT);
//3.输出
System.out.println(exists);
}
5.RestClient *** 作文档
5.1 初始化JavaRestClient
- 引入es的RestHighLevelClient依赖:
<dependency>
<groupId>org.elasticsearch.clientgroupId>
<artifactId>elasticsearch-rest-high-level-clientartifactId>
<version>7.12.1version>
dependency>
- 覆盖默认的ES版本:
<properties>
<java.version>1.8java.version>
<elasticsearch.version>7.12.1elasticsearch.version>
properties>
- 初始化RestHighLevelClient:
//客户端
private RestHighLevelClient client;
@BeforeEach
void setUp() {
this.client = new RestHighLevelClient(RestClient.builder(
HttpHost.create("http://192.168.81.128:9200")
));
}
@AfterEach
void tearDown() throws IOException {
this.client.close();
}
5.2 新增文档
先查询酒店数据,然后给这条数据创建倒排索引,即可添加完成:
@Test
void testIndexDocument() throws IOException {
//根据id查询酒店数据
Hotel hotel = hotelService.getById(61083L);
//转换为文档类型
HotelDoc hotelDoc = new HotelDoc(hotel);
//1.准备Request对象
IndexRequest indexRequest = new IndexRequest("hotel").id(hotelDoc.getId().toString());
//2.准备Json文档
indexRequest.source(JSON.toJSONString(hotelDoc), XContentType.JSON);
//3.发送请求
client.index(indexRequest, RequestOptions.DEFAULT);
}
5.3 查询文档
根据id查询到的文档数据是json,需要反序列化为java对象:
@Test
void testGetDocumentById() throws IOException {
//1.创建request对象
GetRequest request = new GetRequest("hotel","61083");
//2.发送请求,得到结果
GetResponse response = client.get(request, RequestOptions.DEFAULT);
//3.解析结果
String json = response.getSourceAsString();
HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
System.out.println(hotelDoc);
}
}
5.4 修改文档
修改文档数据有两种方式:
方式一:全量更新。再次写入id一样的文档,就会删除旧文档,添加新文档
方式二:局部更新。只更新部分字段,方式二代码:
@Test
void testUpdateDocumentById() throws IOException {
//1.创建request对象
UpdateRequest request = new UpdateRequest("hotel", "61083");
//2.准备参数,每两个参数为一对key value
request.doc(
"price", 999,
"score", 44
);
//3.更新文档
client.update(request, RequestOptions.DEFAULT);
}
5.5 删除文档
@Test
void testDeleteDocumentById() throws IOException {
//1.创建request对象
DeleteRequest request = new DeleteRequest("hotel", "61083");
//2.发送请求
client.delete(request, RequestOptions.DEFAULT);
}
5.6 总结:文档 *** 作的基本步骤
- 初始化RestHighLevelClient
- 创建XxxRequest。XXX是Index、Get、Update、Delete
- 准备参数(Index和Update时需要)
- 发送请求。调用RestHighLevelClient#.xxx()方法,xxx是index、get、update、delete
- 解析响应结果(Get时需要)
案例:利用JavaRestClient批量导入酒店数据到ES
需求:批量查询酒店数据,然后批量导入索引库中
思路:
- 利用mybatis-plus查询酒店数据
- 将查询到的酒店数据(Hotel)转换为文档类型数据(HotelDoc)
- 利用JavaRestClient中的Bulk批处理,实现批量的新增文档,示例代码如下:
@Test
void testBulk() throws IOException {
//批量查询酒店数据
List<Hotel> hotels = hotelService.list();
//1.创建Bulk请求
BulkRequest request = new BulkRequest();
//2.添加要批量提交的请求:这里添加了两个新增文档的请求
for (Hotel hotel : hotels) {
//转换为文档类型HotelDoc
HotelDoc hotelDoc = new HotelDoc(hotel);
//创建新增文档的Request对象
request.add(new IndexRequest("hotel").id(hotel.getId().toString())
.source(JSON.toJSONString(hotelDoc), XContentType.JSON));
}
//3.发起bulk请求
client.bulk(request, RequestOptions.DEFAULT);
}
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)