大数据向量检索的细节问题

9月前作者：小李飞刀李寻欢分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了大数据向量检索的细节问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

背景：现有亿级别数据（条数），其文本大小约为150G，label为字符串，content为文本。用于向量检索，采用上次的试验进行，但有如下问题需要面对：

1、向量维度及所需空间

向量维度一版采用768的bert系列的模型推理得到，openai也有类似的功能，不过是2倍的维度（即1536），至于哪个好坏，都宣称自己比较好，寡人实际应用中有实践：m3e-base似乎不错。

由于faiss需要float32的小数，根据下面试验，可以发现如果直接转成np.float32数据类型的数据然后直接进行存储（txt存储，每行进行存储），那么保留小数点后8位后存储的大小约为直接存储的数据的一半大小，同时节约了磁盘大小。在运行时，因为是大数据级别的，不建议将所有向量都求出来再进行存储，那样需要很大的内存，一般机器不支持，我这里的200G+的机器都over几次了。

存储试验：文章来源地址https://www.toymoban.com/news/detail-663824.html

res=np.random.randn(2,768)
with open("test768.txt","w") as f :
    for i in range(len(res)):
        tmp = res[i].astype(np.float32).tolist()
        # tmp = [round(i,8) for i in tmp]
        tmp

到了这里，关于大数据向量检索的细节问题的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

向量检索（一）Faiss 在工业界的应用和常见问题解决

传统的搜索，使用关键做精确的查找，利用倒排索引在索引库中搜索。日常在用的百度，Google都属于搜索。在 AI 时代，我们需要查找一张相似的图片，一个问题的答案，或者根据一段音乐查找对应的歌曲，这些情况下没有准确的用来做检索。这些图片，问题（

2024年02月02日
浏览(48)
数据结构与算法细节篇之最短路径问题：Dijkstra和Floyd算法详细描述，java语言实现。

最短路径的算法有两个， Dijkstra算法和 Floyd算法。 Dijkstra算法解决的是单源最短路径问题。 Floyd算法解决的是多源最短路径问题，并且可以处理负权图。今天要讲的就是Dijkstra算法。加： feng--Insist (大写的i)，进java交流群讨论互联网+技术。可索要PPT等资料。其他资料

2024年02月11日
浏览(51)
向量检索库Milvus架构及数据处理流程

搜索或推荐场景，需要将非结构化的物料（媒资）结构化，也即提取特征，然后将特征存储向量数据库，从而实现海量数据快速检索功能。当前，开源市场比较火的搜索引擎有Faiss，但Faiss更类似于es的lucene，需要上层解决分布式水平扩容、数据一致性、高可用等问题。所以对

2024年02月08日
浏览(44)
【向量数据库】相似向量检索Faiss数据库的安装及余弦相似度计算（C++）

Faiss 是一个强大的向量相似度搜索库，具有以下优点：高效的搜索性能：Faiss 在处理大规模向量数据时表现出色。它利用了高度优化的索引结构和近似搜索算法，可以快速地执行最近邻搜索和相似度匹配，具有很低的查询延迟。高度可扩展：Faiss 提供了多种索引结构和算法

2024年02月07日
浏览(51)
向量数据库:usearch的简单使用+实现图片检索应用

usearch是快速开源搜索和聚类引擎×，用于C++、C、Python、JavaScript、Rust、Java、Objective-C、Swift、C#、GoLang和Wolfram 🔍中的向量和🔜字符串× 一个简单的例子（注：本例子在运行时向index中不断添加项目，并将最后的index持久化为一个文件，在运行时由于添加项目内存占用会不断增

2024年02月02日
浏览(49)
Spring AI - 使用向量数据库实现检索式AI对话

Spring AI 并不仅限于针对大语言模型对话API进行了统一封装，它还可以通过简单的方式实现LangChain的一些功能。本篇将带领读者实现一个简单的检索式AI对话接口。在一些场景下，我们想让AI根据我们提供的数据进行回复。因为对话有最大Token的限制，因此很多场景下我们

2024年04月14日
浏览(49)
信息检索与数据挖掘 | （五）文档评分、词项权重计算及向量空间模型

目录 📚词项频率及权重计算 🐇词项频率 🐇逆文档频率 🐇tf-idf权重计算 📚向量空间模型 🐇余弦相似度 🐇查询向量 🐇向量相似度计算 📚其他tf-idf权值计算方法 🐇tf的亚线性尺度变换方法 🐇基于最大值的tf归一化 🐇文档权值和查询权重机我们需要一种方法分配一个

2024年02月08日
浏览(43)
AI实践与学习1_NLP文本特征提取以及Milvus向量数据库实践

随着NLP预训练模型（大模型）以及多模态研究领域的发展，向量数据库被使用的越来越多。在XOP亿级题库业务背景下，对于试题召回搜索单单靠着ES分片集群普通搜索已经出现性能瓶颈，因此需要预研其他技术方案提高试题搜索召回率。现一个方案就是使用Bert等模型提取试

2024年01月24日
浏览(46)
理解构建LLM驱动的聊天机器人时的向量数据库检索的局限性 - （第1/3部分）

本博客是一系列文章中的第一篇，解释了为什么使用大型语言模型（ LLM ）部署专用领域聊天机器人的主流管道成本太高且效率低下。在第一篇文章中，我们将讨论为什么矢量数据库尽管最近流行起来，但在实际生产管道中部署时从根本上受到限制。在下面的文章中，我们说

2024年02月14日
浏览(40)
【深度学习&图神经网络】Node2Vec +GAT 完成节点分类任务（含代码） | 附：其它生成节点特征向量的算法：DeepWalk、LINE（具体实现细节）、SDNE、MMDW

“我从来没有在哪次分离中流过眼泪，因为我觉得，与还健在的人的离别是世界上第二浪漫的事，因为我们从此离别以后每一次相遇都是重逢，而重逢是世界上第一浪漫的事情。” 🎯作者主页：追光者♂🔥 🌸个人简介： 💖[1] 计算机专业硕士研究生

2024年02月07日
浏览(53)