RAG应用开发实战02-相似性检索的关键 - Embedding

1年前作者：公众号-JavaEdge分类：Toy博客阅读(12)违法举报

这篇具有很好参考价值的文章主要介绍了RAG应用开发实战02-相似性检索的关键 - Embedding。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 文本Embedding

将整个文本转化为实数向量的技术。

Embedding优点是可将离散的词语或句子转化为连续的向量，就可用数学方法来处理词语或句子，捕捉到文本的语义信息，文本和文本的关系信息。

◉ 优质的Embedding通常会让语义相似的文本在空间中彼此接*

RAG应用开发实战02-相似性检索的关键 - Embedding

◉ 优质的Embedding相似的语义关系可以通过向量的算术运算来表示：

RAG应用开发实战02-相似性检索的关键 - Embedding

2 文本Embedding模型的演进与选型

RAG应用开发实战02-相似性检索的关键 - Embedding

目前的向量模型从单纯的基于 NLI 数据集（对称数据集）发展到基于混合数据（对称+非对称）进行训练，即可以做 QQ召回任务也能够做 QD 召回任务，通过添加 Instruction 来区分这两类任务，只有在进行 QD 召回的时候，需要对用户 query 添加上 Instruction 前缀。

3 VDB通用Embedding模型

模型选择：

RAG应用开发实战02-相似性检索的关键 - Embedding

GPU资源：

RAG应用开发实战02-相似性检索的关键 - Embedding

4 VDB垂类Embedding模型

用户提供垂类文档数据，VDB对模型进行微调，助力垂类应用效果更进一步。

优化1：对比学*拉*同义文本的距离，推远不同文本的距离

RAG应用开发实战02-相似性检索的关键 - Embedding

优化2：短文本匹配和长文本匹配使用不同prompt，提升非对称类文本效果

RAG应用开发实战02-相似性检索的关键 - Embedding

优化3：预训练阶段提升基座模型面向检索的能力，对比学*阶段提高负样本数

RAG应用开发实战02-相似性检索的关键 - Embedding

RAG应用开发实战02-相似性检索的关键 - Embedding

5 存储、检索向量数据

5.1 为啥需要一个专用的向量数据库

查询方式与传统数据库存在区别
简单易用，无需关心细节
为相似性检索设计，天生性能优势

5.2 腾讯云向量数据库的优势

“首家”：

通过信通院的标准化性能和规模测试
支持千亿级向量规模和最高500W QPS

自研：

内核源自集团自研OLAMA引擎
内部已有40+业务接入

性价比：

性能领先业内平均水平1.5倍
同时客户成本降低20%

6 VDB优势

流程简化

RAG应用开发实战02-相似性检索的关键 - Embedding

模型简化：

RAG应用开发实战02-相似性检索的关键 - Embedding

共享GPU集群：

RAG应用开发实战02-相似性检索的关键 - Embedding

7 腾讯云向量数据库：消除大模型幻觉，加速大模型在企业落地

7.1 端到端AI套件，AGI时代的知识库解决方案

提供一站式知识检索方案，实现业界内最高召回率、大幅降低开发门槛，帮助企业快速搭建RAG应用，解决大模型幻觉问题。

RAG应用开发实战02-相似性检索的关键 - Embedding

7.2 源自集团多年积累，产品能力行业领先

源自腾讯自研向量检索引擎OLAMA，集团内部40+业务线上使用，日均处理1600亿次检索请求。

『首家』通过中国信通院向量数据库标准测试
单索引支持最高千亿级超大数据规模
单实例最高可达500万 QPS

本文由博客一文多发平台 OpenWrite 发布！文章来源地址https://www.toymoban.com/news/detail-851510.html

到了这里，关于RAG应用开发实战02-相似性检索的关键 - Embedding的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

图像检索技术研究：深度度量与深度散列在相似性学习中的应用比较与实践 - 使用Python与Jupyter环境
引言在计算机视觉领域，图像检索是一个长期存在并持续受到研究者关注的重要话题。随着大数据时代的到来，如何高效、准确地从海量数据中检索到相似的图像成为一个巨大的挑战。传统的检索方法在大数据环境下表现不佳，而深度学习技术的崛起为图像检索带来了新的机
2024年02月12日
浏览(11)
常见的相似性度量方法
有如下几种计算相似性方法： X ⋅ Y = ∣ X ∣ ∣ Y ∣ c o s θ = ∑ i = 1 n x i ∗ y i begin{aligned} X cdot Y = |X||Y|costheta \\\\ = sum_{i=1}^n x_i * y_i end{aligned} X ⋅ Y = ∣ X ∣∣ Y ∣ cos θ = i = 1 ∑ n x i ∗ y i 向量内积的结果是没有界限的，解决办法就是先归一化再相乘，就是
2024年02月14日
浏览(11)
RAG应用开发实战(01)-RAG应用框架和解析器
第三方的工具去对文件解析拆分，去将我们的文件内容给提取出来，并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。支持丰富的文档类型每种文档多样化选择与开源框架无缝集成
2024年04月11日
浏览(9)
矩阵的相似性度量的常用方法
1，欧氏距离欧式距离是最易于理解的一种距离计算方法，源自欧式空间中两点间的距离公式。 (1)二维平面上的点 a ( x 1 , y 1 ) a(x_1,y_1) a ( x 1 , y 1 ) 和点 b ( x 2 , y 2 ) b(x_2,y_2) b ( x 2 , y 2 ) 的欧式距离为 d = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d=sqrt{(x_1-x_2)^2+(y_1-y_2)^2} d = (
2024年02月07日
浏览(12)
相似性和相异性的度量
相似度（Similarity）：两个数据对象相似程度的数值度量；对象越相似，值越高；通常在[0, 1]区间取值。有时候相似度的取值范围可能在[-1, 1]之间，这时正负号包含了一定信息，这种情况下可以保留其符号，而非强行转换到[0, 1]之间。相异度（Dissimilarity）：两个对象不同
2024年02月07日
浏览(11)
如何计算2个矩阵的相似性？
如下图所示，如何计算功能连接和结构连接的矩阵相似性？原理：把结构矩阵或者功能连接矩阵的上三角矩阵提取出来，然后利用squeeze把上三角矩阵转化为一列，然后计算相关性。皮尔逊相关系数公式实际上就是在计算夹角余弦之前将两个向量减去各个样本的平均值，达到
2024年02月13日
浏览(19)
图像质量评估算法SSIM（结构相似性）
由于最近在阅读图像超分辨率方面的RCAN论文，里面涉及到了两幅图像之间的相似性，所以就引入了这个指标，并最终使用pyhton进行实现。结构相似性，是一种衡量两幅图像相似度的指标。该指标首先由德州大学奥斯丁分校的图像和视频工程实验室(Laboratory for Image and Video Eng
2024年01月18日
浏览(12)
相似性搜索：第 7 部分--LSH 组合物
Vyacheslav Efimov – Medium S 相似性搜索是一个问题，给定一个查询，目标是在所有数据库文档中找到与其最相似的文档。在数据科学中，相似性搜索经常出现在 NLP 领域、搜索引擎或推荐系统中，其中需要检索最相关的文档或项目以进行查询。有多种不同的方法可以
2024年02月07日
浏览(14)
安全研究 # 二进制代码相似性检测综述
本文参考： [1]方磊,武泽慧,魏强.二进制代码相似性检测技术综述[J].计算机科学,2021,48(05):1-8. (信息工程大学数学工程与先进计算国家重点实验室, 国家重点研发课题,北大核心) 代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域，可分为源代码相似性检测
2024年02月02日
浏览(8)
相似性度量（距离度量）方法（一）：基本种类与公式
相似性度量（或距离度量）方法在多元统计中的聚类分析、判别分析中的距离判别法、泛函分析、机器学习等方面都有应用。所以对于数据分析、机器学习等方面，掌握相似性的不同度量方法是十分重要且必要的。相似性度量与距离度量本质上是同一件事情。如果两组数据之
2024年01月24日
浏览(10)