Elasticsearch:使用 fuzziness 来进行搜索

这篇具有很好参考价值的文章主要介绍了Elasticsearch:使用 fuzziness 来进行搜索。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在我之前的文章 “Elasticsearch:fuzzy 搜索 (模糊搜索)”,我详细描述了模糊搜索。尽管那篇文章已经很详尽了,但是还是有 auto 这个配置没有完全覆盖到。在今天的文章中,我们来进一步对这个进行讲解一下。

Fuzziness 参数存在于某些查询中,使用它时,你将受益于根据术语的相似性来定位文档。 Elastic 使用 Levenshtein Edit Distance 算法将搜索词与文档词匹配。 这样,根据模糊配置,像术语 “schol” 这样的搜索将找到带有单词 “school” 的文档。

Fuzziness 参数可以配置为以下值:

  • 0、1、2:允许对术语进行的编辑量。
  • AUTO:根据输入项的大小,定义编辑次数。

Fuzines:0

等于 0 的编辑次数仅允许完全匹配。 在下面的示例中,只有完全匹配会返回结果,如果术语是 “bok”,则不会返回任何结果。

POST idx_fuzzy/_doc
{
  "text": "I tore to the book page"
}

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "book",
        "fuzziness": "0"
      }
    }
  }
}

Fuziness:1

当我们只允许 1 个编辑时,我们将在术语为 “sumer”(sumer->summer)时获得文档。 如果术语是 “samer”,查询将不会返回文档,因为最小编辑数将为 2。

POST idx_fuzzy/_doc
{
  "text": "The city is more beautiful in summer"
}

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "sumer",
        "fuzziness": "1"
      }
    }
  }
}

Fuziness:2

允许两次编辑,我们将能够在术语 “samer”(samer -> summer)时获得文档。

POST idx_fuzzy/_doc
{
  "text": "The city is more beautiful in summer"
}

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "samer",
        "fuzziness": "2"
      }
    }
  }
}

Fuzziness:AUTO

AUTO 设置允许你调整编辑和术语大小之间的关系。 默认情况下,该设置为 "AUTO:3,6",也就是说,大小为 6 的术语最多允许 1 个编辑。

在下面的第一个示例中,我们将配置 "AUTO:4,6",即具有最小 4 和最大 6 大小的术语。 我们将只能获得 1 个编辑。

POST idx_fuzzy/_doc
{
  "text": "The city is more beautiful in summer"
}

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "sumer",
        "fuzziness": "AUTO:4,6"
      }
    }
  }
}

上面的 AUTO 配置针对很多的开发者来说,可能并不熟悉。我们还是先来看看官方的文档:

AUTO

根据术语的长度生成编辑距离。 可以选择提供低距离和高距离参数 AUTO:[low],[high]。 如果未指定,则默认值为 3 和 6,相当于 AUTO:3,6 的长度:

0..2 必须完全匹配
3..5 允许一次编辑
>5 允许两次编辑

AUTO 通常应该是模糊性的首选值。

在上面,我们设置 AUTO 为 4,6,也就是说长度在 0..3,必须完全匹配,在 4..5 之间的,允许一次编辑,长度大于 5 的,允许两次编辑。上面的 sumer 长度为 5,它可以允许有一次编辑。下面的搜索也将会是成功的:

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "summem",
        "fuzziness": "AUTO:4,6"
      }
    }
  }
}

它需要两次的编辑,因为 summem 的长度为 6。

如果把上面的配置修改为 AUTO: 6,7,那么如下的搜索:

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "sumer",
        "fuzziness": "AUTO:6,7"
      }
    }
  }
}

将不会得到任何的结果,因为 sumer 的长度为 5。对于小于 5 的长度而言,必须完全匹配。

如果词条是 “beautiful”,我们会得到结果,因为词条的长度在 6 到 7 之间,并且会执行编辑。

POST idx_fuzzy/_doc
{
  "text": "The city is more beautiful in summer"
}

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "beatiful",
        "fuzziness": "AUTO:6,7"
      }
    }
  }
}

当术语的最小大小为 5 和最大为 7 时,我们可以获得 2 个编辑。beatifu -> beautiful

POST idx_fuzzy/_doc
{
  "text": "The city is more beautiful in summer"
}

GET idx_fuzzy/_search
{
  "query": {
    "match": {
      "text": {
        "query": "beatifu",
        "fuzziness": "AUTO:6,7"
      }
    }
  }
}

使用模糊性可能是获得类似术语结果的理想选择,但请始终注意你的配置,因为误报非常容易。文章来源地址https://www.toymoban.com/news/detail-479308.html

到了这里,关于Elasticsearch:使用 fuzziness 来进行搜索的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch:使用 ELSER v2 进行语义搜索

    在我之前的文章 “Elasticsearch:使用 ELSER 进行语义搜索”,我们展示了如何使用 ELESR v1 来进行语义搜索。在使用 ELSER 之前,我们必须注意的是: 重要 :虽然 ELSER V2 已正式发布,但 ELSER V1 仍处于 [预览] 状态。此功能处于技术预览阶段,可能会在未来版本中更改或删除。 E

    2024年02月22日
    浏览(44)
  • Elasticsearch:使用 ELSER 文本扩展进行语义搜索

    在今天的文章里,我来详细地介绍如何使用 ELSER  进行文本扩展驱动的语义搜索。 如果你还没有安装好自己的 Elasticsearch 及 Kibana,请参考如下的链接来进行安装: 如何在 Linux,MacOS 及 Windows 上进行安装 Elasticsearch Kibana:如何在 Linux,MacOS 及 Windows 上安装 Elastic 栈中的 Kiba

    2024年02月07日
    浏览(49)
  • Elasticsearch:使用查询规则(query rules)进行搜索

    在之前的文章 “Elasticsearch 8.10 中引入查询规则 - query rules”,我们详述了如何使用 query rules 来进行搜索。这个交互式笔记本将向你介绍如何使用官方 Elasticsearch Python 客户端来使用查询规则。 你将使用 query rules API 将查询规则存储在 Elasticsearch 中,并使用 rule_query 查询它们。

    2024年02月21日
    浏览(41)
  • 使用 Elasticsearch、OpenAI 和 LangChain 进行语义搜索

    在本教程中,我将引导您使用 Elasticsearch、OpenAI、LangChain 和 FastAPI 构建语义搜索服务。 LangChain 是这个领域的新酷孩子。 它是一个旨在帮助你与大型语言模型 (LLM) 交互的库。 LangChain 简化了与 LLMs 相关的许多日常任务,例如从文档中提取文本或在向量数据库中对它们建立索引

    2024年02月08日
    浏览(42)
  • 通过 Elasticsearch 和 Go 使用混合搜索进行地鼠狩猎

    作者:CARLY RICHMOND,LAURENT SAINT-FÉLIX 就像动物和编程语言一样,搜索也经历了不同实践的演变,很难在其中做出选择。 在本系列的最后一篇博客中,Carly Richmond 和 Laurent Saint-Félix 将搜索和向量搜索结合起来,使用 Go 客户端在 Elasticsearch 中寻找地鼠(gopher)。 今天构建

    2024年02月05日
    浏览(38)
  • Elasticsearch:Search tutorial - 使用 Python 进行搜索 (二)

    这个是继上一篇文章 “Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (一)” 的续篇。在今天的文章中,我们接着来完成如何进行分页及过滤。 应用程序处理大量结果通常是不切实际的。 因此,API 和 Web 服务使用分页控件来允许应用程序请求小块或页面的结果。 你可能已

    2024年02月01日
    浏览(37)
  • Elasticsearch:Search tutorial - 使用 Python 进行搜索 (三)

    这个是继上一篇文章 “Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (二)” 的续篇。在今天的文章中,本节将向你介绍一种不同的搜索方式,利用机器学习 (ML) 技术来解释含义和上下文。 在机器学习中,嵌入是表示现实世界对象(例如单词、句子、图像或视频)的向量

    2024年02月02日
    浏览(38)
  • 快速入门:使用 Gemini Embeddings 和 Elasticsearch 进行向量搜索

    Gemini 是 Google DeepMind 开发的多模态大语言模型家族,作为 LaMDA 和 PaLM 2 的后继者。由 Gemini Ultra、Gemini Pro 和 Gemini Nano 组成,于 2023 年 12 月 6 日发布,定位为 OpenAI 的竞争者 GPT-4。 本教程演示如何使用 Gemini API 创建嵌入并将其存储在 Elasticsearch 中。 Elasticsearch 将使我们能够执

    2024年01月21日
    浏览(43)
  • thinkphp中使用Elasticsearch 7.0进行多表的搜索

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 提示:thinkphp中使用Elasticsearch 7.0进行多表的搜索: thinkphp数据库配置文件 提示:以下是本篇文章正文内容,下面案例可供参考 示例:thinkphp中使用Elasticsearch 7.0进行多表的搜索 直接上代码如下(示例)

    2024年02月10日
    浏览(31)
  • 使用 LangChain 和 Elasticsearch 对私人数据进行人工智能搜索

    关于本博文的所有代码可以在地址下载:GitHub - liu-xiao-guo/python-vector-private 我将在本博文中其中深入研究人工智能和向量嵌入的深水区。 ChatGPT 令人大开眼界,但有一个主要问题。 这是一个封闭的托管系统。 在一个被大型网络公司改变的世界里生活了二十年之后,我们作为人

    2024年02月07日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包