搜索中关于稀疏检索和稠密向量检索的召回效果比较

1年前作者：水的精神分类：Toy博客阅读(16)违法举报

这篇具有很好参考价值的文章主要介绍了搜索中关于稀疏检索和稠密向量检索的召回效果比较。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

不同检索方式说明

最近在做搜索召回提升相关的研究工作。对比了稀疏检索和稠密向量检索的效果。其中使用的搜索引擎为elasticsearch8.x版本。稀疏检索包括BM25的检索方式，以及es官方在8.8之后版本提供的稀疏向量模型的方式。稠密向量检索，是指借助机器学习的模型做文本嵌入，然后用es8.x以后版本提供的向量检索。

测试数据说明

测试数据包括了中文和英文，涉及了法律和新闻数据。

一、先说结论

相比较BM25检索，借助机器学习模型做文本嵌入的向量检索方式，有不错的效果。

同时，ES的稀疏向量模型，在英文场景下，相比较BM25和向量检索，仍然取得了更好的召回率提升效果。

BM25和向量检索以及稀疏向量检索之间的关系？

从测试数据来看，三者之间是互补的。

二、三种不同召回方式成功召回率对比效果

声明：这里取top50，如果命中标准答案则认为召回。

以一个测试集为例（法律数据），该测试集是有人工整理的198个问题，包含了问题和答案，相对质量较高。

在下图中，可以看到BM25成功召回177（89%）。

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

向量检索成功召回156个（79%）

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

稀疏向量成功召回187个（ 94%）

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

结论一：稀疏向量召回率 >BM25 > 稠密向量

只看每一种召回方式，召回效果。

稀疏向量成功召回187（ 94%） > BM25 成功召回177（89%）> 稠密向量成功召回156 （79%）

请注意这个结论！！! 其中向量检索的效果，会和向量模型有着非常密切的关系，会和测试数据集有非常密切的关系。关于BM25的召回效果好于向量检索，我自己也是不认可的。请看结论四。

结论二：三者是可以互补的

再看三路混合检索整体的召回效果，成功召回189，召回率95%，整体大于任何一个单个检索方式。

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

结论三：BM25 和稠密向量可以互补。

稀疏向量是收费才能使用的功能，且只针对英文效果出色。所以这里只看Bm25和稠密向量的方式。

统计1：其中BM25召回成功的，向量检索召回失败的有27个。13%

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

统计2：其中向量召回成功，但是BM25召回失败的有6个。3%

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

结论四：BM25是否真的好于向量检索？

其中向量检索，严重依赖外部的文本嵌入的模型，假如模型没有训练过某个领域的知识，则在向量embedding过程中，一定会都是语义，所以效果表现不佳，甚至是低于Bm25的召回效果。

于是又对比了不同的测试数据集: 这次是中文的新闻数据。共1704个case。向量召回率98% >bm

25召回率 95%

即使这样，我依然无法下一个结论说向量检索效果比BM25好，或者说差。还是取决于文本嵌入模型的能力，以及测试集样本。但是总是可以得出，而知没有绝对的谁领先，而是互补，1+1 >2的效果!

其中BM25 成功召回 1619，召回率95%。

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

其中向量成功召回 1675，召回率98.2%。

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

整体召回率，98.8%。两者可以互补的结论依然成立。

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

三、稀疏向量的提升效果

这是一个全新的测试数据集。也是法律数据和法律问题。与上边的测试集不同的是，这是人工整理的，没有杂质数据的干扰。

在英文场景下，稀疏向量的召回率相比较BM25，提升明显！提升到了100%，提升了14%

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

topK召回率有很大提升，top1提升了31%，top5提升了28.5%，top10提升了22%

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

搜索中关于稀疏检索和稠密向量检索的召回效果比较,RAG,ES搜索优化,召回方式对比,BM25 vs 向量检索,Bm25 vs 稀疏向量,稠密向量 vs 稀疏向量,召回率提升方法

四、应该如何选用召回方式

其中Bm25 是花费资源最少得检索方式。向量检索是花费资源最多的方式，因为要使用模型，其并发能力会受到资源限制。稀疏向量需要依赖官方提供的模型，是收费的功能，并且价格昂贵，且只支持英文场景，无法做多语言的混合场景，亲测中英混合的情况下，效果下降明显。文章来源地址https://www.toymoban.com/news/detail-833019.html

到了这里，关于搜索中关于稀疏检索和稠密向量检索的召回效果比较的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

召回：效果评估
最好肯定是线上ab，但是ps资源和线上流量都有限。首先auc高并不代表召回的好，实际上好的召回可能auc低一些，但是会召回出更符合真实分布的内容，实际工作中auc当作参考就好。拿Top K召回结果与用户实际点击做交集并计算precision/recall，感觉现在大多都是用的这个方法，
2023年04月26日
浏览(7)
《算法工程师带你去》读书笔记什么是稀疏向量（向量的稀疏表示）
对数据进行预处理时，一般需要对类别型特征进行编码：序号编码独热编码二进制编码其中独热编码用的是最多的。但是当类别数十分巨大时，独热编码是一个非常稀疏的向量，只有一个值不为0，其他值均为0。可以使用向量的稀疏表示来大大的节省空间，并且目前大多
2024年02月03日
浏览(11)
ES 8.x 向量检索性能测试 & 把向量检索性能提升100倍！
向量检索不仅在的跨模态检索场景中应用广泛，随着chat gpt的火热，es的向量检索，在Ai领域发挥着越来越大的作用。本文，主要测试es的向量检索性能。我从8.x就开始关注ES的向量检索了。当前ES已经发布到 8.10 版本。以下是官方文档的链接： https://www.elastic.co/guide/
2024年02月07日
浏览(9)
向量数据库入坑：传统文本检索方式的降维打击，使用 Faiss 实现向量语义检索
在上一篇文章《聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》中，我们有聊到如何快速入门向量检索技术，借助 Meta AI（Facebook Research）出品的 faiss 实现“最基础的文本内容相似度检索工具”，初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新
2024年02月16日
浏览(39)
《向量数据库》——怎么安装向量检索库Faiss？
装 Faiss 以下教程将展示如何在 Linux 系统上安装 Faiss： 1. 安装 Conda。在安装 Faiss 之前，先在系统上安装 Conda。Conda 是一个开源软件包和环境管理系统，可在 Windows、macOS 和 Linux 操作系统上运行。根据以下步骤在 Linux 系统上安装 Conda。 2. 从官网下载 Miniconda 安装包（
2024年02月13日
浏览(14)
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索？如何实现？
向量组合条件查询，报 [vector] malformed query, expected [END_OBJECT] but found [FIELD_NAME] 错误，向量查询是不支持复合条件查询吗？ ——问题来自：死磕 Elasticsearch 知识星球 https://t.zsxq.com/18skX0ZS6 类似问题在社群里被问到 2 次以上了！向量搜索热度不减，所以我们非常有必要将向量搜
2024年04月11日
浏览(11)
剪枝基础与实战(4):稀疏训练及剪枝效果展示
稀疏训练是通过在损失loss 中增加 BN 的 γ gamma γ 参数的L1 正则，从而让绝大多数通道对应的 γ gamma γ 值趋近与 0 , 从而使得模型达到稀疏化的效果:
2024年02月11日
浏览(6)
向量检索增强chatglm生成
基于chatglm构建agnet：chatglm实现Agent控制 - 知乎前面一篇文章已经介绍了如何去搭建LLM Agent控制系统，也简单介绍了如何去构建Toolset和构建Action。但是在上篇文章中Toolset其实是基于搜索api构建的，从这篇文章开始后面几篇文章会围绕具体的工具展开介绍如何搭建专业工具。这
2024年02月16日
浏览(5)
milvus: 专为向量查询与检索设计的向量数据库
milvus docs milvus release Milvus的目标是：store, index, and manage massive embedding vectors generated by deep neural networks and other machine learning (ML) models. Milvus 向量数据库专为向量查询与检索设计，能够为万亿级向量数据建立索引。与现有的关系数据库主要按照预定义的模式处理结构化数据不同，
2024年02月15日
浏览(12)
大数据向量检索的细节问题
背景：现有亿级别数据（条数），其文本大小约为150G，label为字符串，content为文本。用于向量检索，采用上次的试验进行，但有如下问题需要面对：向量维度一版采用768的bert系列的模型推理得到，openai也有类似的功能，不过是2倍的维度（即1536），至于哪个好坏，都宣称自
2024年02月12日
浏览(9)