ES-模糊查询

这篇具有很好参考价值的文章主要介绍了ES-模糊查询。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 前缀搜索:prefix
概念:以xx开头的搜索,不计算相关度评分。

注意:

前缀搜索匹配的是term(精确值查找),而不是field。
前缀搜索的性能很差
前缀搜索没有缓存
前缀搜索尽可能把前缀长度设置的更长

语法:
json GET <index>/_search 
{
    "query": {
        "prefix": {
            "<field>": {
                "value": "<word_prefix>"
            }
        }
    }
}
index_prefixes: 默认 "min_chars" : 2, "max_chars" : 5

通配符:wildcard

概念:通配符运算符是匹配一个或多个字符的占位符。例如,*通配符运算符匹配零个或多个字符。您可以将通配符运算符与其他字符结合使用以创建通配符模式。
注意:

通配符匹配的也是term,而不是field

语法:
json GET <index>/_search 
{
    "query": {
        "wildcard": {
            "<field>": {
                "value": "<word_with_wildcard>"
            }
        }
    }
}

正则:regexp

概念:regexp查询的性能可以根据提供的正则表达式而有所不同。为了提高性能,应避免使用通配符模式,如.或 .?+未经前缀或后缀
语法:
json GET <index>/_search 
{
    "query": {
        "regexp": {
            "<field>": {
                "value": "<regex>",
                "flags": "ALL"
                
            }
        }
    }
}
flags

ALL

启用所有可选操作符。

COMPLEMENT

启用操作符。可以使用对下面最短的模式进行否定。例如

a~bc # matches ‘adc’ and ‘aec’ but not ‘abc’

INTERVAL

启用<>操作符。可以使用<>匹配数值范围。例如

foo<1-100> # matches ‘foo1’, ‘foo2’ … ‘foo99’, ‘foo100’

foo<01-100> # matches ‘foo01’, ‘foo02’ … ‘foo99’, ‘foo100’

INTERSECTION

启用&操作符,它充当AND操作符。如果左边和右边的模式都匹配,则匹配成功。例如:

aaa.+&.+bbb # matches ‘aaabbb’

ANYSTRING

启用@操作符。您可以使用@来匹配任何整个字符串。 您可以将@操作符与&和~操作符组合起来,创建一个“everything except”逻辑。例如:

@&~(abc.+) # matches everything except terms beginning with ‘abc’

2. 模糊查询:fuzzy
混淆字符 (box → fox) 缺少字符 (black → lack)

多出字符 (sic → sick) 颠倒次序 (act → cat)

语法
json GET <index>/_search 
{
    "query": {
        "fuzzy": {
            "<field>": {
                "value": "<keyword>"
            }
        }
    }
}
参数:

value:(必须,关键词)

fuzziness:编辑距离,(0,1,2)并非越大越好,召回率高但结果不准确

  1. 两段文本之间的Damerau-Levenshtein距离是使一个字符串与另一个字符串匹配所需的插入、删除、替换和调换的数量

  2. 距离公式:Levenshtein是lucene的,es改进版:Damerau-Levenshtein,

axe=>aex Levenshtein=2 Damerau-Levenshtein=1

transpositions:(可选,布尔值)指示编辑是否包括两个相邻字符的变位(ab→ba)。默认为true

3. 短语前缀:matchphraseprefix

match_phrase:

match_phrase会分词
被检索字段必须包含match_phrase中的所有词项并且顺序必须是相同的
被检索字段包含的match_phrase中的词项之间不能有其他词项

概念:

​ matchphraseprefix与match_phrase相同,但是它多了一个特性,就是它允许在文本的最后一个词项(term)上的前缀匹配,如果 是一个单词,比如a,它会匹配文档字段所有以a开头的文档,如果是一个短语,比如 “this is ma” ,他会先在倒排索引中做以ma做前缀搜索,然后在匹配到的doc中做matchphrase查询,(网上有的说是先matchphrase,然后再进行前缀搜索, 是不对的)

参数

analyzer 指定何种分析器来对该短语进行分词处理
max_expansions 限制匹配的最大词项
boost 用于设置该查询的权重
slop 允许短语间的词项(term)间隔:slop 参数告诉 match_phrase 查询词条相隔多远时仍然能将文档视为匹配 什么是相隔多远? 意思是说为了让查询和文档匹配你需要移动词条多少次?文章来源地址https://www.toymoban.com/news/detail-811694.html

原理解析:https://www.elastic.co/cn/blog/found-fuzzy-search#performance-considerations

N-gram和edge ngram

tokenizer
json GET _analyze 
{
    "tokenizer": "ngram",
    "text": "reba always loves me"
}
token filter
json GET _analyze 
{
    "tokenizer": "ik_max_word",
    "filter": [
        "ngram"
    ],
    "text": "reba always loves me"
}
min_gram:创建索引所拆分字符的最小阈值
max_gram:创建索引所拆分字符的最大阈值
ngram:从每一个字符开始,按照步长,进行分词,适合前缀中缀检索
edge_ngram:从第一个字符开始,按照步长,进行分词,适合前缀匹配场景

到了这里,关于ES-模糊查询的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 十万字图文详解mysql、redis、kafka、elasticsearch(ES)多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案,如何构建数据仓库、数据湖、数仓一体化?

    数据库大数据量、高并发、高可用解决方案,十万字图文详解mysql、redis、kafka、elasticsearch(ES)多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案,如何构建数据仓库、数据湖、数仓一体化?Delta Lake、Apache Hudi和Apache Iceberg数仓一体化技术架构

    2024年02月07日
    浏览(51)
  • 面试就是这么简单,offer拿到手软(三)—— 常见中间件框架面试题,es,redis,dubbo,zookeeper kafka 等

    面试就是这么简单,offer拿到手软(一)—— 常见非技术问题回答思路 面试就是这么简单,offer拿到手软(二)—— 常见65道非技术面试问题 面试就是这么简单,offer拿到手软(三)—— 常见中间件框架面试题,es,redis,dubbo,zookeeper kafka 等 面试就是这么简单,offer拿到手

    2024年02月05日
    浏览(41)
  • 各种中间件的默认端口

    面试时会忘记个别中间件端口 docker:2375 nacos:8848 redis:6379 rabbitMq: 5672(后台配置的端口) 15672(web管理界面)账号:guest 15674(web STOMP插件):通过WebSocket连接使用STOMP达到消息传递 zookeeper:2181 dubbo:20880 kafka:9092 个别中间件配置对外暴露端口 1.docker 编辑配置文件 找到 Ex

    2024年02月11日
    浏览(34)
  • ElasticSearch入门:使用ES来实现模糊查询功能

    本文针对在工作中遇到的需求:通过es来实现 模糊查询 来进行总结;模糊查询的具体需求是:查询基金/A股/港股等金融数据,要求可以根据 字段 , 拼音首字母 , 部分拼音全称 进行联想查询;需要注意的是,金融数据名称中可能不止包含汉字,还有英文,数字,特殊字符等

    2023年04月09日
    浏览(45)
  • ES&elasticsearch-header菜鸟教程06--模糊查询

    一 prefix前缀查询 二 wildcard通配符查询 三 regexp正则查询

    2024年02月15日
    浏览(34)
  • 【默认端口】市面上各种中间件、软件、服务的默认端口汇总

    市面上各种中间件、软件和服务的默认端口众多,下面列举一些常见的默认端口:     · SSH(Secure Shell):22 · Telnet:23 · FTP(File Transfer Protocol):21 · SFTP(SSH File Transfer Protocol):22 · SMTP(Simple Mail Transfer Protocol):25 · POP3(Post Office Protocol version 3):110 · IMAP(Interne

    2024年02月09日
    浏览(38)
  • ElasticSearch进阶:多种查询操作,各种ES查询以及在Java中的实现

    目录 前言 1 词条查询 1.1 等值查询-term 1.2 多值查询-terms 1.3 范围查询-range 1.4 前缀查询-prefix 1.5 通配符查询-wildcard 2 复合查询 2.1 布尔查询 2.2 Filter查询 3 聚合查询 3.1 最值、平均值、求和 3.2 去重查询 3.3 分组聚合 3.3.1 单条件分组 3.3.2 多条件分组 3.4 过滤聚合 ElasticSearch 第一篇

    2024年02月02日
    浏览(50)
  • 【开发】中间件——ElasticSearch

    ElasticSearch是一个基于Lucene的搜索服务器。提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口 ElasticSearch是一个基于Lucene的搜索服务器。提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口 ElasticSearch是用JAVA开发的。达到实时搜索,稳定可靠,快速,

    2024年02月17日
    浏览(51)
  • Java中间件-Elasticsearch

    Elasticsearch 是一个非常强大的搜索引擎。它目前被广泛地使用于各个 IT 公司。Elasticsearch 是由 Elastic 公司创建。它的代码位于 GitHub - elastic/elasticsearch: Free and Open, Distributed, RESTful Search Engine。目前,Elasticsearch 是一个免费及开放(free and open)的项目。同时,Elastic 公司也拥有

    2023年04月27日
    浏览(45)
  • 中间件: ElasticSearch的安装与部署

    文档地址: https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html 创建用户: 系统参数配置: 方式一:YUM安装 方式二: 配置 启动 (1)修改配置elasticsearch.yml: cluster.name # 一个集群内cluster name 需要相同 node.name # 各个节点node name 唯一 discovery.seed_hosts # network.host node.mast

    2024年02月12日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包