Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?

这篇具有很好参考价值的文章主要介绍了Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、企业级实战问题

向量组合条件查询,报 [vector] malformed query, expected [END_OBJECT] but found [FIELD_NAME] 错误,

向量查询是不支持复合条件查询吗?

GET /my_index/_search
{
  "size":2,
  "_source": true, 
  "query": {
    "vector": {
      "my_vector": {
        "vector": [1, 1],
        "topk":2
      }
    },
    "bool": {
      "must": [
        {
          "match": {
            "my_label":"red"
          }
        }
      ]
    }
  }
}

——问题来自:死磕 Elasticsearch 知识星球

https://t.zsxq.com/18skX0ZS6

类似问题在社群里被问到 2 次以上了!

向量搜索热度不减,所以我们非常有必要将向量搜索和普通搜索结合方式给大家讲清楚。

换句话说,向量搜索和普通搜索的组合检索才是 Elasticsearch 作为向量数据库有别于其他新兴向量数据库的发力点所在。

更多向量检索的先验知识,推荐大家阅读:

  1. 干货 | 详述 Elasticsearch 向量检索发展史

  2. 高维向量搜索:在 Elasticsearch 8.X 中利用 dense_vector 的实战探索

  3. Elasticsearch:普通检索和向量检索的异同?

  4. Elasticsearch 8.X “图搜图”实战

2、一边实战,一边验证

如下所有验证都是在 Elasticsearch 8.11.0 集群环境下完成的。

2.1 步骤 1: 创建索引

首先,通过PUT image-index 请求,创建了一个名为 image-index 的索引,并定义了其映射。

这个映射指定了索引中文档将包含的字段及其类型:

  • image-vector:一个类型为dense_vector的字段,用于存储 ** 3 维 ** 向量数据。

  • title:一个text类型的字段,用于存储图像的标题。

  • file-type:一个keyword类型的字段,用于存储文件类型,如"jpeg"、"png"、"gif"等。

  • my_label:另一个text类型的字段,可以用于存储任何标签信息,如颜色标签"red"、"blue"等。

PUT image-index
{
  "mappings": {
    "properties": {
      "image-vector": {
        "type": "dense_vector",
        "dims": 3
      },
      "title": {
        "type": "text"
      },
      "file-type": {
        "type": "keyword"
      },
      "my_label": {
        "type": "text"
      }
    }
  }
}

2.2 步骤 2: 批量插入数据

使用 POST /image-index/_bulk 请求,批量插入了多个文档到 image-index 索引。

每个文档包含了一个向量、标题、文件类型和标签。

这些文档反映了不同的图像信息,每个图像都有自己的向量表示、标题、文件类型和颜色标签。

POST image-index/_bulk
{ "index": {} }
{ "image-vector": [-5, 9, -12], "title": "Image A", "file-type": "jpeg", "my_label": "red" }
{ "index": {} }
{ "image-vector": [10, -2, 3], "title": "Image B", "file-type": "png", "my_label": "blue" }
{ "index": {} }
{ "image-vector": [4, 0, -1], "title": "Image C", "file-type": "gif", "my_label": "red" }

2.3 步骤3:基于已有认知尝试组合检索

knn 检索咱讲过,翻一下官方文档即可。

https://www.elastic.co/guide/en/elasticsearch/reference/current/knn-search.html

官方示例如下:

POST image-index/_search
{
  "knn": {
    "field": "image-vector",
    "query_vector": [-5, 9, -12],
    "k": 10,
    "num_candidates": 100
  },
  "fields": [ "title", "file-type" ]
}

正好和我们的示例是契合的,我们先执行一下,如下图所示,全体数据均可召回。

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

接下来,尝试再加上普通检索。

  • 并列组合

  • 大 BOOL 组合写

  • 组合到内部 咱们挨个试试:

2.3.1 尝试方式一:并列组合检索

可以执行,可以召回结果数据。

但结果没有达到预期,我们过滤的 red ,召回结果里有 blue。如下图所示。

结论:并列组合检索不可行。

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索
2.3.2 方式二:大 BOOL 组合写

按照常规逻辑的 bool 组合检索,结果发现:并不支持!

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索
2.3.3 方式三:组合到内部

直接将过滤检索组合到 knn 内部,会报错,语法并不支持!

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

那,怎么办?

不能再猜了,看官方文档如何支持的?

https://www.elastic.co/guide/en/elasticsearch/reference/current/knn-search.html

官方文档给出两份答案。

2.3.4 官方答案一:Filtered kNN search

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

如下实现语法的核心:knn 向量检索的里面加了 filter 过滤。

POST image-index/_search
{
  "knn": {
    "field": "image-vector",
    "query_vector": [
      54,
      10,
      -2
    ],
    "k": 5,
    "num_candidates": 50,
    "filter": {
      "match": {
        "my_label": "red"
      }
    }
  },
  "fields": [
    "title",
    "file-type",
    "my_label"
  ],
  "_source": false
}
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

针对前面提到问题的解决方案,这是咱们推荐的唯一正确的检索方式。

2.3.5 官方答案二:hybrid  search 混合检索

这个方式,就是咱们前面验证过的并列组合检索方式。结论和之前一致,并没有达到预期。

POST image-index/_search
{
  "query": {
    "match": {
      "my_label": {
        "query": "red"
      }
    }
  },
  "knn": {
    "field": "image-vector",
    "query_vector": [
      54,
      10,
      -2
    ],
    "k": 5,
    "num_candidates": 50,
    "boost": 0.1
  },
  "size": 10
}
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

3、小结

查询方式千万种,我们需要敲定适合自己业务场景的方式。

基于已有的常识组合检索是一种方式,更快的方式是结合官方文档探究。

我们既定认为的检索方式,不见得是官方推荐的方式。

官方推荐的:Filtered kNN search 查询结合了基于内容的过滤和基于向量的搜索,旨在找出既符合文本查询条件(如标签为"red")又在向量空间中与给定查询向量最接近的文档。

这样的查询在处理如图像、文档或音频等多媒体内容时特别有用,其中内容可以通过向量(例如通过机器学习模型生成的嵌入)和元数据(如标签、标题或类型)来描述。

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

通过这种方式,我们可以高效地找到既满足特定元数据条件又在内容上与给定示例相似的项目,这对于构建推荐系统、图像搜索引擎或其他需要结合内容和上下文信息进行精准检索的应用场景非常有价值。

此处后续版本可能有变化,更多细节,以最新版本的官方文档为准。


7 年+积累、 Elastic 创始人Shay Banon 等 15 位专家推荐的 Elasticsearch 8.X新书已上线

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

更短时间更快习得更多干货!

和全球 近2000+ Elastic 爱好者一起精进!

elastic6.cn——ElasticStack进阶助手

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?,elasticsearch,jenkins,大数据,搜索引擎,全文检索

比同事抢先一步学习进阶干货!文章来源地址https://www.toymoban.com/news/detail-847710.html

到了这里,关于Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch向量检索的演进与变革:从基础到应用

    向量检索已经成为现代搜索和推荐系统的核心组件。 通过将复杂的对象(例如文本、图像或声音)转换为数值向量,并在多维空间中进行相似性搜索,它能够实现高效的查询匹配和推荐。 Elasticsearch 作为一款流行的开源搜索引擎,其在向量检索方面的发展也一直备受关注。本

    2024年02月06日
    浏览(41)
  • ElasticSearch中使用bge-large-zh-v1.5进行向量检索(一)

    系统:MacOS 14.3.1 ElasticSearch:8.13.2 Kibana:8.13.2 BGE是一个常见的文本转向量的模型,在很多大模型RAG应用中常常能见到,但是ElasticSearch中默认没有。BGE模型有很多版本,本次采用的是bge-large-zh-v1.5。下载地址: HuggingFace:https://huggingface.co/BAAI/bge-large-zh-v1.5 Modelscope:魔搭社区

    2024年04月16日
    浏览(30)
  • 一个线上问题引发的思考——Elasticsearch 8.X 如何实现更精准的检索?

    ——问题来自:死磕Elasticsearch 知识星球微信群 这个问题涉及到业务细节,至今没有定论。不过,该问题引发了我的思考。 我们使用 Elasticsearch 到底用来做什么? 除了 Elasticsearch 早已不是10年前因“菜谱”而火出技术圈的搜索引擎组件,它早已不是“单兵作战”,而是 ELKB

    2023年04月08日
    浏览(34)
  • 技术解密:普通位置向量集如何提高语音识别准确性

    语音识别技术是人工智能领域的一个关键技术,它可以将人类的语音信号转换为文本信息,从而实现自然语言与计算机之间的沟通。随着语音助手、语音控制等应用的广泛使用,语音识别技术的准确性和实时性已经成为了关键的研究热点。 在过去的几年里,语音识别技术的主

    2024年02月20日
    浏览(33)
  • 向量数据库入坑:传统文本检索方式的降维打击,使用 Faiss 实现向量语义检索

    在上一篇文章《聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》中,我们有聊到如何快速入门向量检索技术,借助 Meta AI(Facebook Research)出品的 faiss 实现“最基础的文本内容相似度检索工具”,初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新

    2024年02月16日
    浏览(46)
  • 向量数据库:usearch的简单使用+实现图片检索应用

    usearch是快速开源搜索和聚类引擎×,用于C++、C、Python、JavaScript、Rust、Java、Objective-C、Swift、C#、GoLang和Wolfram 🔍中的向量和🔜字符串× 一个简单的例子(注:本例子在运行时向index中不断添加项目,并将最后的index持久化为一个文件,在运行时由于添加项目内存占用会不断增

    2024年02月02日
    浏览(49)
  • Spring AI - 使用向量数据库实现检索式AI对话

     Spring AI 并不仅限于针对大语言模型对话API进行了统一封装,它还可以通过简单的方式实现LangChain的一些功能。本篇将带领读者实现一个简单的检索式AI对话接口。  在一些场景下,我们想让AI根据我们提供的数据进行回复。因为对话有最大Token的限制,因此很多场景下我们

    2024年04月14日
    浏览(49)
  • 使用Spark ALS模型 + Faiss向量检索实现用户扩量实例

    1、通过ALS模型实现用户/商品Embedding的效果,获得其向量表示 准备训练数据, M = (U , I, R) 即 用户集U、商品集I、及评分数据R。 (1)商品集I的选择:可以根据业务目标确定商品候选集,比如TopK热度召回、或者流行度不高但在业务用户中区分度比较高的商品集等。个人建议量

    2024年02月13日
    浏览(38)
  • OLAP引擎也能实现高性能向量检索,据说QPS高于milvus!

    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 随着LLM技术应用及落地,数据库需要提高向量分析以及AI支持能力,向量数据库及向量检索等能力“异军突起”,迎来业界持续不断关注。简单来说,向量检索技术以及向量数据库能

    2024年01月16日
    浏览(52)
  • Elasticsearch 如何做到快速检索 - 倒排索引的秘密

    这里我们就引出了一个概念,也是我们今天的要剖析的重点 - 倒排索引。也是 ES 的核心知识点。 如果你了解 ES 应该知道,ES 可以说是对 Lucene 的一个封装,里面关于倒排索引的实现就是通过 lucene 这个 jar 包提供的 API 实现的,所以下面讲的关于倒排索引的内容实际上都是

    2023年04月08日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包