ElasticSearch 之 Mapping 映射_随笔

ElasticSearch 之 Mapping 映射

主要在于了解，在工作实践中去选择去应用这些类型和属性。

一、什么是映射？

映射是定义文档及其包含的字段的存储和索引方式的过程。

二、两种映射方式

dynamic mapping（动态映射或自动映射）expllcit mapping (静态映射或手工映射或显示映射) 三、查看 mapping

GET /index/_mappings

四、ES 数据类型常见类型：

1.数字类型：

long integer short byte double float half_float scaled_float unsighed_long

2.Keywords:

keyword：适用于索引结构化的字段，可用于过滤、排序、聚合。keyword 类型的字段只能通过（exact value）搜索到。Id 应该用 keyword。

constant_keyword：始终包含相同值的关键字字段。

wildcard：可针对类似 grep 的通配符查询优化日志行和类似的关键字。

关键字字段通常用于排序，汇总和 term 查询。

3.Dates（时间类型）：包括 date 和 date nanos。

4.alias：为现有字段定义别名。

5.binary（二进制）

6.range（区间类型）

integer_range float_range long_range double_range date_range

7.text:

应该使用 text 类型来定义需要被全文搜索的字段，设置 text 类型以后，字段内容会被分析，在生成倒排索引以前，字符串会被分析器分成一个个词项，text 类型的字段不用于排序、很少用于聚合。

为啥不会为 text 创建索引？

会产生大量堆空间，尤其是在加载高基数 text 字段时，字段一旦加载到堆中，就在该段的生命周期内保持在那里，加载字段数据是一个昂贵的过程，可能导致用户遇到延迟问题。这就是默认情况下禁用字段数据的原因。

对象关系类型：

1.object：用于单个对象；

2.nested：用于 JSON 对象数组；

3.flattened：允许将整个 JSON 对象索引为单个字段。

结构化类型：

1.geo-point：纬度/经度积分；

2.geo-shape：用于多边形等复杂形状；

3.point：笛卡尔坐标点；

4.shape：笛卡尔任意几何图形

特殊类型：

1.IP地址：用于 IPv4 和 IPv6 地址；

2.completion：提供自动完成建议；

3.tocken_count：计算字符串中令牌的数量；

4.murmur3：在索引时计算值的哈希并将其存储在索引中；

5.annotated-text：索引包含特殊标记的文本（通常用于表示命名实体）；

6.percolator：接受来自 query-dsl 的查询；

7.join：为同一索引内的文档定义父/子关系；

8.rank features：记录数字功能以提高查询时的点击率；

9.dense vector：记录浮点值的密集向量；

10.sparse vector：记录浮点值的稀疏向量；

11.search-as-you-type：针对查询优化的文本字段，以实现按需输入的完成；

12.histogram：histogram 用于百分位数聚合的预聚合数值；

13.constant keyword：keyword 当所有文档都具有相同值时的情况的专业化。

数组：

1.array：在 es 中，数组不需要专用的字段数据类型，默认情况下，任何字段都可以包含零个或多个值，但是，数组中的所有值都必须具有相同的数据类型。

新增：

1.date_nanos：date plus 纳秒

2.features

五、两种映射类型 Dynamic field mapping 插入数据类型=>映射成的类型整数=>long浮点数=>floattrue || false=>boolean日期=>date数组=>取决于数组中的第一个有效值对象=>object字符串=>如果不是数字和日期类型，那会被映射成 text 和 keyword 两个类型。

利用动态映射创建索引查看类型

Expllcit field mapping：手动映射

PUT /product
{
    "mapping":{
        "properties":{
            "field":{
                "mapping_parameter":"parameter_value"
            }
        }
    }

}

eg：

PUT /product
{
    "mapping":{
        "properties":{
            "date":{
                "type":"text"
            }
        }
    }

}

六、映射参数

1.index：是否对创建当前字段创建索引，默认 true，如果不创建索引，该字段不会通过索引被搜索到，但是仍然会在 source 元数据中表示。

2.analyzer：指定分析器（character filter、tokenizer、Token filter）。

3.boost：对当前字段相关度的评分权重，默认1。

4.coerce：是否允许强制类型转换。

5.copy_to：该参数允许将多个字段的值复制到组字段中，然后可以将其作为单个字段进行查询。

6.doc_values：为了提升排序和聚合效率，默认 true，如果确定不需要对字段进行排序或聚合，也不需要通过脚本访问字段值，则可以禁用 doc 值以节省磁盘空间（不支持 text 和 annotated_text）

7.dynamic：控制是否可以动态添加字段，默认 true 新检测到字段将被添加到映射中；false 的时候新检测到的字段将被忽略，这些字段将不会被索引，因此将无法搜索，但是仍然会出现在 _source 返回的匹配项中，这些字段不会添加到映射中，必须显式添加新字段；strict 如果检测到新字段，则会引发异常并拒绝文档，必须将新字段显式添加到映射中。

8.eager_global_ordinals：用于聚合的字段上，优化聚合性能。Forzen indices (冻结索引) ，有些索引使用率很高，会被保存在内存中，有些使用率特别低，宁愿在使用的时候重新创建，在使用完毕后丢弃数据，Frozen indices 的数据命中频率小，不适用与高搜索负载，数据不会被保存在内存中，堆空间占用比普通索引少得多，Frozen indices 是只读的，请求可能是秒级或者分钟级，eager_global_ordinals 不适用于 Frozen indices。

9.enable：是否创建倒排索引，可以对索引 *** 作，如果不创建索引，仍然可以检索并且在 _source 元数据中展示，谨慎使用，该状态无法修改。

PUT my_index
{
    "mappings":{
            "enable":false
        }
}

10.fielddata：查询时内存数据结构，在首次使用当前字段聚合、排序或在脚本中使用时，需要字段以 fielddata 数据结构，并且创建倒排索引保存到堆中。

11.fields：给 field 创建多个字段，用于不同目的（全文检索或者聚合分析排序）。

12.format：格式化。

"date":{
    "type":"date",
    "format":"yyyy-MM-dd"
}

13.ignore_above：超过长度将被忽略。

14.ignore_malforme：忽略类型错误。

15.index_options：控制将哪些信息添加到反向索引中以进行搜索和突出显示，仅用于 text 字段。

16.Index_phrases：提升 exact_value 查询速度，但是要消耗更多磁盘空间。

17.Index_prefixes：前缀搜索，min_chars 前缀最小长度，>0，默认2（包含）；max_chars 前缀最大长度，<20，默认5（包含）。

18.meta：附加元数据。

19.normalizer

20.norms：是否禁用评分（在filter 和聚合字段上应该禁用）。

21.null_value：为 null 值设置默认值。

22.position_increment_gap

23.proterties：除了 mapping 还可用于 object 的属性设置。

24. search_analyzer：设置单独的查询时分析器。

25.similarity：为字段设置相关度算法，支持 BM25、classic(TF-IDF)、boolean。

26.store：设置字段是否仅查询。

27.term_vector：运维参数。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5705346.html

ElasticSearch 之 Mapping 映射

发表评论

评论列表（0条）