Elasticsearch实践:Setting、Mapping

这篇具有很好参考价值的文章主要介绍了Elasticsearch实践:Setting、Mapping。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

版本:Elasticsearch 6.2.4。

Mapping类似于数据库中的表结构定义,主要作用如下:

  • 定义Index下字段名(Field Name)
  • 定义字段的类型,比如数值型,字符串型、布尔型等
  • 定义倒排索引的相关配置,比如是否索引、记录postion等

Mapping完整的内容可以分为四部分内容:

  • 字段类型(Field datatypes)
  • 元字段(Meta-Fields)
  • Mapping参数配置(Mapping parameters)
  • 动态Mapping(Dynamic Mapping)

自动Mapping

如果没有手动设置Mapping,Elasticsearch默认会自动解析出类型,且每个字段以第一次出现的为准。

下面我们先看一下Elasticsearch默认创建的Mapping是什么样的。

首先我们创建一个索引:

PUT /user/

查询索引信息:

GET /user

结果:

{
  "user": {
    "aliases": {},
    "mappings": {},
    "settings": {
      "index": {
        "creation_date": "1540044686190",
        "number_of_shards": "5",
        "number_of_replicas": "1",
        "uuid": "_K5b8w7jRiuthf7QeQZhdw",
        "version": {
          "created": "5060299"
        },
        "provided_name": "user"
      }
    }
  }
}

增加一条数据:

PUT /user/doc/1
{
  "name":"Allen Yer",
  "job":"php",
  "age":22
}

PUT /user/doc/2
{
  "name":"Allen Yer",
  "job":0,
  "age":22
}

查询数据是否新增成功:

GET /user/doc/_count

结果:

{
  "count": 2,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  }
}

count为2,说明新增成功。然后我们查询下 mapping :

{
  "user": {
    "mappings": {
      "doc": {
        "properties": {
          "age": {
            "type": "long"
          },
          "job": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "name": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          }
        }
      }
    }
  }
}

发现自动为每个字段设置了类型:

  • name: text类型,另外额外增加了name.keyword字段,keyword类型;
  • job:text类型,另外额外增加了job.keyword字段,keyword类型;虽然第二次数据新增是数字类型,但还是以第一次为主;
  • age:long类型。

大家可以把索引删掉,将新增数据调整为先新增第2条,再新增第一条,发现报错了:

DELETE /user

PUT /user/doc/2
{
  "name":"Allen Yer",
  "job":0,
  "age":22
}

PUT /user/doc/1
{
  "name":"Allen Yer",
  "job":"php",
  "age":22
}

报错:

{
  "error": {
    "root_cause": [
      {
        "type": "mapper_parsing_exception",
        "reason": "failed to parse [job]"
      }
    ],
    "type": "mapper_parsing_exception",
    "reason": "failed to parse [job]",
    "caused_by": {
      "type": "number_format_exception",
      "reason": "For input string: \"php\""
    }
  },
  "status": 400
}

也能说明以第一次为主以字段第一次的值类型为准。这也说明了默认创建mapping可能不是我们想要的,这就需要手动创建mapping,好处有:

  • 提前指定字段(通过设置甚至可以达到禁止自动增加字段的效果)
  • 合理设置字段类型,防止分词过多或者解析不合理。分词过大会导致磁盘空间占用大。

手动创建mapping

这次我们删掉mapping,并手动创建一个:

DELETE /user

PUT /user/
{
    "mappings": {
      "doc": {
        "properties": {
          "name": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "age": {
            "type": "long",
            "index": false
          },
          "job": {
            "type": "keyword"
          },
          "intro":{
            "type":"text"
          },
          "create_time": {
            "type": "date", 
            "format": "epoch_second"
        }
        }
     }
  }
}

字段类型说明:

  • name:text类型,会进行分词,支持模糊检索。
  • name.keyword : 这相当于是嵌套了一个字段,keyword类型,只能精确匹配,不支持分词。超过256字符长度不索引,也就没法搜索到。
  • age:long类型,支持精确匹配。
  • job:keyword类型,只能精确匹配,不支持分词。
  • intro:text类型,会进行分词,支持模糊检索。
  • create_time:date类型,支持10位时间戳。
注意:mapping生成后是不允许修改(包括删除)的。所以需要提前合理的的定义mapping。

字段类型

Elasticsearch支持文档中字段的许多不同数据类型:

普通数据类型

字符串类型

text 和 keyword2种 。其中 text 支持分词,用于全文搜索;keyword 不支持分词,用于聚合和排序。在旧的ES里这两个类型由string表示。

如果安装了IK分词插件,我们可以为text类型指定IK分词器。一般来说,对于字符串类型,如果:

1) 模糊搜索+精确匹配,一般是name或者title字段:

"name": {
        "type": "text",
        "analyzer": "ik_smart",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      }

2) 模糊搜索,一般是内容详情字段:

"content": {
        "type": "text",
        "analyzer": "ik_smart"
      }

3) 精确匹配:

"name": {
        "type": "keyword"
      }

4) 不需要索引:

"url": {
        "type": "keyword",
        "index": false
      }
数字类型

支持 long,integer,short,byte,double,float,half_float,scaled_float。具体说明如下:

  • long

带符号的64位整数,其最小值为-2^63,最大值为(2^63)-1

  • integer

带符号的32位整数,其最小值为-2^31,最大值为(23^1)-1

  • short

带符号的16位整数,其最小值为-32,768,最大值为32,767。

  • byte

带符号的8位整数,其最小值为-128,最大值为127。

  • double

双精度64位IEEE 754浮点数。

  • float

单精度32位IEEE 754浮点数。

  • half_float

半精度16位IEEE 754浮点数。

  • scaled_float

缩放类型的的浮点数。需同时配置缩放因子(scaling_factor)一起使用。

对于整数类型(byte,short,integer和long)而言,我们应该选择这是足以使用的最小的类型。这将有助于索引和搜索更有效。

对于浮点类型(float、half_float和scaled_float),-0.0+0.0是不同的值,使用term查询查找-0.0不会匹配+0.0,同样range查询中上边界是-0.0不会匹配+0.0,下边界是+0.0不会匹配-0.0

其中scaled_float,比如价格只需要精确到分,price57.34的字段缩放因子为100,存起来就是5734。优先考虑使用带缩放因子的scaled_float浮点类型。

示例:

PUT my_index
{
  "mappings": {
    "_doc": {
      "properties": {
        "status": {
          "type": "byte"
        },
        "year": {
          "type": "short"
        },
        "id": {
          "type": "long"
        },
        "price": {
          "type": "scaled_float",
          "scaling_factor": 100
        }
      }
    }
  }
}
日期类型

类型为 date 。

JSON本身是没有日期类型的,因此Elasticsearch中的日期可以是:

  • 包含格式化日期的字符串。
  • 一个13位long类型表示的毫秒时间戳( milliseconds-since-the-epoch)。
  • 一个integer类型表示的10位普通时间戳(seconds-since-the-epoch)。

在Elasticsearch内部,日期类型会被转换为UTC(如果指定了时区)并存储为long类型表示的毫秒时间戳。

日期类型可以使用使用format自定义,默认缺省值:"strict_date_optional_time||epoch_millis"

"postdate": {
      "type": "date",
      "format": "strict_date_optional_time||epoch_millis"
    }

format 有很多内置类型,这里列举部分说明:

  • strict_date_optional_time, date_optional_time

通用的ISO日期格式,其中日期部分是必需的,时间部分是可选的。例如 "2015-01-01"或"2015/01/01 12:10:30"。

  • epoch_millis

13位毫秒时间戳

  • epoch_second

10位普通时间戳

其中strict_开头的表示严格的日期格式,这意味着,年、月、日部分必须具有前置0。

更多日期格式详见: https://www.elastic.co/guide/...

当然也可以自定义日期格式,例如:

"postdate":{
      "type":"date",
      "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd"
    }

注意:如果新文档的字段的值与format里设置的类型不兼容,ES会返回失败。示例:

PUT my_index
{
  "mappings": {
    "_doc": {
      "properties": {
        "date": {
          "type": "date",
          "format":"epoch_millis"
        }
      }
    }
  }
}

PUT my_index/_doc/1
{
  "date":1543151405000
}
PUT my_index/_doc/2
{
  "date":1543151405
}
PUT my_index/_doc/3
{
  "date":"2018-11-25 21:10:43"
}
GET my_index/_doc/_search

第3条数据插入失败,因为只接受长整数的时间戳,字符串类型的日期是不匹配的。第2条的值只有10位数,虽然值是不正确的,但是在epoch_millis的取值范围内,所以也是成功的。

布尔类型

类型为 boolean 。

二进制类型

类型为 binary 。

范围类型

integer_range,float_range,long_range,double_range,date_range

复杂类型

  • 数组数据类型

在ElasticSearch中,没有专门的数组(Array)数据类型,但是,在默认情况下,任意一个字段都可以包含0或多个值,这意味着每个字段默认都是数组类型,只不过,数组类型的各个元素值的数据类型必须相同。在ElasticSearch中,数组是开箱即用的(out of box),不需要进行任何配置,就可以直接使用。,例如:

字符型数组: [ "one", "two" ]
整型数组:[ 1, 2 ]
数组型数组:[ 1, [ 2, 3 ]] 等价于[ 1, 2, 3 ]

  • 对象数据类型

object 对于单个JSON对象。JSON天生具有层级关系,文档可以包含嵌套的对象。

  • 嵌套数据类型

nested 对于JSON对象的数组

Geo数据类型

  • 地理点数据类型

geo_point 对于纬度/经度点

  • Geo-Shape数据类型

geo_shape 对于像多边形这样的复杂形状

专用数据类型

  • IP数据类型

ip 用于IPv4和IPv6地址

  • 完成数据类型

completion 提供自动完成的建议

  • 令牌计数数据类型

token_count 计算字符串中的标记数

  • mapper-murmur3

murmur3 在索引时计算值的哈希值并将它们存储在索引中

  • 过滤器类型

接受来自query-dsl的查询

  • join 数据类型

为同一索引中的文档定义父/子关系

多字段

为不同目的以不同方式索引相同字段通常很有用。例如,string可以将字段映射为text用于全文搜索的keyword字段,以及用于排序或聚合的字段。或者,您可以使用standard分析仪, english分析仪和 french分析仪索引文本字段。

元字段

_all

该字段用于在没有指定具体字段的情况下进行模糊搜索,可以搜索全部字段的内容。

原理是将所有字段的内容视为字符串,拼在一起放在一个_all字段上,但这个字段默认是不被存储的,可以被搜索。在query_string与 simple_query_string查询(Kibana搜索框用的这种查询方式)默认也是查询_all字段。

6.x 版本被默认关闭。

相关设置:

PUT my_index
{
  "mappings": {
    "my_type": {
      "_all": {
        "enabled": true,
        "store": false
      },
      "properties": {}
    }
  },
  "settings": {
    "index.query.default_field": "_all" 
  }
}

上述配置在5.x版本是默认配置:

  • 默认开启 _all 字段
  • 默认不存储 _all 字段
  • 默认搜索 _all 字段

如果从CPU性能及磁盘空间考虑,可以考虑可以完全禁用或基于每个字段自定义_all字段。

假设_all字段被禁用,则URI搜索请求、 query_stringsimple_query_string查询将无法将其用于查询。我们可以将它们配置为其他字段:通过定义 index.query.default_field 属性。

_source

这个字段用于存储原始的JSON文档内容,本身不会被索引,但是搜索的时候被返回。如果没有该字段,虽然还能正常搜索,但是返回的内容不知道对应的是什么。

示例:

GET /user/doc/_search?q=name

结果:

{
  "took": 4,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "user",
        "_type": "doc",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "name": "this is test name",
          "age": 22,
          "job": "java",
          "intro": "the intro can not be searched by singal",
          "intro2": "去朝阳公园",
          "create_time": 1540047542
        }
      }
    ]
  }
}

搜索结果就包含_source字段,存储的是原始文档内容。如果被禁用,只知道有匹配内容,但是无法知道返回的是什么。所以需要谨慎关闭该字段。

如果想禁用该字段,可以在创建Mapping的时候,设置_:

{
  "mappings": {
    "_doc": {
      "_source": {
        "enabled": false
      }
    }
  }
}

_type

ElasticSearch里面有 index 和 type 的概念:index称为索引,type为文档类型,一个index下面有多个type,每个type的字段可以不一样。这类似于关系型数据库的 database 和 table 的概念。

但是,ES中不同type下名称相同的filed最终在Lucene中的处理方式是一样的。所以后来ElasticSearch团队想去掉type,于是在6.x版本为了向下兼容,一个index只允许有一个type。文章来源地址https://www.toymoban.com/news/detail-767393.html

该字段再在6.0.0中弃用。在Elasticsearch 6.x 版本中创建的索引只能包含单个type。在5.x中创建的含有多个type的索引将继续像以前一样在Elasticsearch 6.x中运行。type 将在Elasticsearch 7.0.0中完全删除。

到了这里,关于Elasticsearch实践:Setting、Mapping的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【ElasticSearch-基础篇】Mapping结构

    Mapping 类似 mysql 中的 schema 的定义 用于定义索引属性字段的名称、字段的数据类型 (如 text , long , keyword…)、字段的倒排索引相关配置 一个Mapping 属于一个索引的Type、每个文档都属于一个Type es7.0开始, 在Mapping中不需要指定 Type信息, 因为7.0之后只有_doc Type 当我们去创建一个

    2024年01月21日
    浏览(32)
  • (4)elasticsearch的Mapping(映射)

    映射是定义文档及其包含的字段的存储和索引方式的过程。 两种映射方式 dynamic mapping(动态映射或自动映射) expllcit mapping(静态映射或手工映射或显示映射) Mapping数据类型 Mapping参数 https://www.elastic.co/guide/en/elasticsearch/reference/7.10/removal-of-types.html Mapping 也称之为映射,定义

    2024年02月03日
    浏览(26)
  • ElasticSearch索引mapping添加字段

    ES版本5.3.0,在已存在的索引mapping中添加字段。 如下: my_index索引名称,my_type为索引类型名称,new_field_name为新增的字段名称。 如下: 返回为true代表添加操作成功。

    2024年02月13日
    浏览(32)
  • Elasticsearch mapping 之 性能相关配置

    通用类型: 二进制: binary 布尔型:  boolean 字符串:  keyword ,  constant_keyword ,  wildcard, text 别名: alias 对象: object, flattened, nested, join 结构化数据类型: Range, ip, version, murmur3 空间数据类型: geo_point, geo_shape, point, shape   _all  字段的索引方式是将所有其他字段的值作为一个大

    2024年02月04日
    浏览(24)
  • 一文搞懂 Elasticsearch 之 Mapping

    这篇文章主要介绍 Mapping、Dynamic Mapping 以及 ElasticSearch 是如何自动判断字段的类型,同时介绍 Mapping 的相关参数设置。 首先来看下什么是 Mapping: 在一篇文章带你搞定 ElasticSearch 术语中,我们讲到了 Mapping 类似于数据库中的表结构定义 schema,它有以下几个作用: 定义索引中

    2024年02月04日
    浏览(22)
  • Elasticsearch 创建索引mapping修改、修复

    背景:原始index名字是indexName,mapping设置错误,且已经有数据进去,想要修改mapping结构 返回结果:表示新建索引成功 下面表示把indexName的数据同步到indexName_1

    2024年02月11日
    浏览(30)
  • 4.ElasticSearch中Mapping的介绍

    2023年07月09日
    浏览(34)
  • elasticsearch中常用Mapping参数设置

    index:控制当前字段是否被索引,默认为true。如果设置为false,该字段不可被搜索。 创建新的索引并设置mapping信息 运行结果: 在新索引中添加一行数据 运行结果: 查询索引信息 运行结果: 查询某条数据 运行结果:  【\\\"address\\\"字段没有创建索引,是不能根据此字段进行查询

    2024年02月13日
    浏览(26)
  • elasticsearch使用脚本 滚动关闭索引,更新index setting

         在旧的索引中更新mapping时,新增了分词器(分词器已经在模板中添加),但是在更新mapping时报错: 查看elasticsearch官网,发现不允许在已经存在的索引中动态更新分词器,只能先将索引close,更新分词器,然后再打开 Update index settings API | Elasticsearch Guide [8.3] | Elastic 2.1 由

    2024年02月08日
    浏览(38)
  • Elasticsearch学习-索引操作及Mapping映射

    在7.X版本前类似于关系型数据库中的数据库概念,8.X版本后删除了type概念,索引类似于关系型数据库中的表 相当于关系型数据库中的一条数据,最小单元 每一个节点就是一个ES实例(一个java进程),一个节点 != 一台服务器 多个节点组成分布式系统,ES原生分布式,已启动一

    2023年04月22日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包