向量数据库,能让AI再次起飞吗?

这篇具有很好参考价值的文章主要介绍了向量数据库,能让AI再次起飞吗?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

向量数据库,能让AI再次起飞吗?,向量,AI编程,原力计划9月7-8日,深圳国际会展中心18号馆

来了,来了,腾讯面向产业互联网领域规格最高、规模最大、覆盖最广的年度科技盛会 -——- 腾讯全球数字生态大会

9 7 日,我们将聚焦产业未来发展新趋势,针对云计算、大数据、人工智能、安全、SaaS 等核心数字化工具做关键进展发布,并联合生态伙伴推出最新行业场景解决方案。同时,携手全球权威商业杂志榜单,与中国最佳 CEO 探讨数实融合发展趋势,与中国 500 强企业解析产业焕新最佳实践。畅谈国产化、企业出海、行业大模型等应用实例,探讨如何构筑企业安全免疫力,以及如何通过 SaaS 产品组织协同缔造业务新增长等焦点议题。

由于本次大会的信息量太大,西红柿将聚焦向量数据库,为大家带来详细的介绍和评测。

一、什么是向量数据库?

向量数据库是一种专门用于存储和处理向量数据的数据库系统,它通过优化存储结构和查询算法,提供了高效的向量数据存储、相似度搜索、聚类和分类等功能。在图像、音频、文本等领域的应用中,向量数据库发挥着重要的作用。

向量数据库通常提供了丰富的查询接口和功能,如范围查询、k 近邻查询、相似性匹配等。同时,向量数据库还支持高并发和分布式部署,以应对大规模数据和高并发访问的需求。

向量数据库,能让AI再次起飞吗?,向量,AI编程,原力计划

向量数据库的工作流程包括以下步骤:

  • 1、向量数据的存储:向量数据通常是高维的数值型数据,如图像特征向量、文本词向量等;向量数据库使用基于向量的存储结构,以便快速查询和处理;
  • 2、向量索引:向量数据库使用 PQ、LSH 或 HNSW 等算法为向量编制索引,并将向量映射到数据结构,以便更快地进行搜索;
  • 3、向量查询:向量数据库将查询向量与数据库中的向量进行比较,从而找到最近邻的向量;
  • 4、查询结果的返回:向量数据库返回查询结果,通常包括与给定向量最相似的向量列表、向量之间的相似度得分等信息;该环节可以使用不同的相似性度量对最近邻重新排序。

二、腾讯云向量数据库 - 测试准备

准备工作概述:一台向量数据库 + 一个执行测试代码的客户端 + ann-benchamrk 官方的测试数据集和方法。

2.1 环境准备

  • 1、登录腾讯云:https://console.cloud.tencent.com
  • 2、创建向量数据库:从腾讯云控制台 一键创建 向量数据库实例。

向量数据库,能让AI再次起飞吗?,向量,AI编程,原力计划

ps.腾讯云向量数据库面向用户提供丰富的实例规格,可按需挑选。

  1. 操作系统选择: 版本建议使用‘TencentOS Server 3.1 (TK4)’, 此版本实测过程中安装 python3 相关的依赖 较顺利;
  2. 磁盘大小选择: 建议预留足够大的磁盘空间,200G 应该能满足实际测试需要,也可参考实际数据集的 大小创建;
  3. 内存大小选择: 因实际测试过程中,每一个进程都需要将被测试数据集全集加载进内存,可参考数据 集大小的 130% * 测试工具进程数 选择机器内存;

稍等几分钟,就建好啦,效果如下: 向量数据库,能让AI再次起飞吗?,向量,AI编程,原力计划

2.2 数据准备

2.1 上传测试工具及数据集到测试客户端

测试数据来源: ann-benchamrk 官方数据集测试工具可自动从外网官方站点下载。 官网地址:https://ann-benchmarks.com/

2.2 安装测试工具依赖

软件依赖: python 版本大于 3.6.8, 使用建议的操作系统版本上的 python3 即可

2.2.1 安装操作系统依赖包

yum install python3-pillow-devel.x86_64

2.2.2 解决测试工具并安装 python 运行依赖

cd ann-benchmarks
pip3 install -r requirements.txt

2.2.3 需要的依赖包:

ansicolors==1.1.8
docker
h5py
matplotlib
numpy
pyyaml
psutil
scikit-learn
jinja2
pytest
dataclasses-json==0.5.7
dacite
urllib3
enum34
typing
tqdm
threadpool

三、性能测试

3.1 测试 128 维数据在 HNSW 索引下的单核查询性能

从测试数据集说明中,找到 ann-benchamrk 已存在的名为 sift-128-euclidean 的数据集正 好是 128 维度,可使用该数据集做测试。 该数据集命令以 euclidean 结尾,表示使用 L2 相似算法。

执行测试后,看看数据库的资源表现吧。

向量数据库,能让AI再次起飞吗?,向量,AI编程,原力计划

  • CPU 使用率接近 100%
  • 内存和磁盘使用率较低

向量数据库,能让AI再次起飞吗?,向量,AI编程,原力计划

请求方面:

  • 请求量 QPS(Count/s) 最大值: 1092.92 最小值: 0.00 平均值: 63.90
  • 请求成功率(%) 最大值: 100.00 最小值: 0.00 平均值: 6.39
  • 请求超时率(%) 最大值: 0.00 最小值: 0.00 平均值: 0.00
  • 请求异常率(%) 最大值: 0.00 最小值: 0.00 平均值: 0.00
  • 失败请求量 QPS(Count/s) 最大值: 0.00 最小值: 0.00 平均值: 0.00
  • 请求平均耗时(ms) 最大值: 0.70 最小值: 0.00 平均值: 0.04

向量数据库,能让AI再次起飞吗?,向量,AI编程,原力计划

网络方面:在西红柿下载测试结果时,造成了一个峰值的。

向量数据库的单核性能表现令人赞叹。它展现出出色的处理能力和高效的计算速度。无论是在数据存储、索引构建还是查询处理方面,向量数据库都能够快速进行并行计算,并在单个核心上实现卓越的性能。

四、小结

腾讯云向量数据库专注于处理大规模的向量数据,并采用了高效的索引和查询算法,能够快速地进行相似度搜索和高维向量计算。使用户能够轻松地进行复杂的数据分析和机器学习任务。

腾讯云向量数据库还具备出色的可扩展性和稳定性。它支持自动水平扩展,能够根据数据规模和用户需求进行弹性扩容,保证了数据库的高可用性和性能稳定性。同时,腾讯云向量数据库提供了友好的管理界面和灵活的API接口,使得用户可以方便地进行数据操作和管理。

除此之外,腾讯云向量数据库还注重数据安全和隐私保护。它采用了多层次的安全措施,包括数据加密、访问控制和防火墙等,保证了用户数据的安全性和隐私保护。

总之,腾讯云向量数据库以其高性能、可扩展性和数据安全性而备受推崇,为用户提供了强大的数据处理和分析能力,是一项令人印象深刻的云端数据库解决方案。

更多精彩,请关注腾讯全球数字生态大会吧。文章来源地址https://www.toymoban.com/news/detail-704527.html

到了这里,关于向量数据库,能让AI再次起飞吗?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 10个最流行的向量数据库【AI】

    矢量数据库是一种将数据存储为高维向量的数据库,高维向量是特征或属性的数学表示。 每个向量都有一定数量的维度,范围从几十到几千不等,具体取决于数据的复杂性和粒度。 推荐:用 NSDT场景设计器 快速搭建3D场景。 矢量数据库(Vector Database)和矢量开发库(Vector

    2024年02月03日
    浏览(78)
  • Spring AI - 使用向量数据库实现检索式AI对话

     Spring AI 并不仅限于针对大语言模型对话API进行了统一封装,它还可以通过简单的方式实现LangChain的一些功能。本篇将带领读者实现一个简单的检索式AI对话接口。  在一些场景下,我们想让AI根据我们提供的数据进行回复。因为对话有最大Token的限制,因此很多场景下我们

    2024年04月14日
    浏览(52)
  • AI大模型的制作:RAG和向量数据库,分别是什么?

    目录 一、什么是 AI 大模型 二、RAG 三、向量数据库 四、如何制作一个好的 AI 大模型 AI大模型是指具有大规模参数和复杂结构的人工智能模型。传统的机器学习模型通常有限的参数量,而AI大模型则通过增加参数量和层数来提升模型的表达能力和性能。这种模型通常使用深度

    2024年02月05日
    浏览(48)
  • AI大模型低成本快速定制秘诀:RAG和向量数据库

      当今人工智能领域,最受关注的毋庸置疑是大模型。然而,高昂的训练成本、漫长的训练时间等都成为了制约大多数企业入局大模型的关键瓶颈。   这种背景下,向量数据库凭借其独特的优势,成为解决低成本快速定制大模型问题的关键所在。   向量数据库是一种

    2024年02月05日
    浏览(46)
  • AI大模型低成本快速定制法宝:RAG和向量数据库

      当今人工智能领域,最受关注的毋庸置疑是大模型。然而,高昂的训练成本、漫长的训练时间等都成为了制约大多数企业入局大模型的关键瓶颈。   这种背景下,向量数据库凭借其独特的优势,成为解决低成本快速定制大模型问题的关键所在。   向量数据库是一种

    2024年02月05日
    浏览(43)
  • ModaHub魔搭社区:腾讯云定义AI Native向量数据库

    大模型时代的到来,拥抱大模型成为企业的刚需。 向量数据库通过把数据向量化然后进行存储和查询,可以极大地提升效率和降低成本。它能解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题,突破大模型在时间和空间上的限制,加速大模

    2024年02月12日
    浏览(51)
  • 用AI原生向量数据库Milvus Cloud 搭建一个 AI 聊天机器人

    搭建聊天机器人 一切准备就绪后,就可以搭建聊天机器人了。 文档存储 机器人需要存储文档块以及使用 Towhee 提取出的文档块向量。在这个步骤中,我们需要用到 Milvus。 安装轻量版 Milvus Lite,使用以下命令运行 Milvus 服务器: 或者,运行 Notebook 中的代码:

    2024年02月07日
    浏览(47)
  • AI实践与学习1_NLP文本特征提取以及Milvus向量数据库实践

    随着NLP预训练模型(大模型)以及多模态研究领域的发展,向量数据库被使用的越来越多。 在XOP亿级题库业务背景下,对于试题召回搜索单单靠着ES分片集群普通搜索已经出现性能瓶颈,因此需要预研其他技术方案提高试题搜索召回率。 现一个方案就是使用Bert等模型提取试

    2024年01月24日
    浏览(48)
  • ModaHub魔搭社区:AI原生云向量数据库MIlvus Cloud实现 HNSW

    HNSW 并不简单,因此我们只在此处进行最简单的实现。像之前一样,我们首先创建一组(128 维)向量的数据集: 第一步是构建 HNSW 索引。为此,我们需要将每个向量添加到我们的数据集中。我们首先创建一个数据结构来保存索引。在这个基本示例中,我们将使用列表的列表来

    2024年02月15日
    浏览(44)
  • ModaHub魔搭社区:AI原生云向量数据库MIlvus Cloud的倒置文件索引?

    目录 VF 总结 平面索引很不错,但它无法扩展。这就是向量搜索的数据结构发挥作用的地方。通过牺牲准确性来减少运行时间,以便显著提高查询速度和吞吐量。现在有很多索引策略,其中最常用的是倒置文件索引(IVF)。 抛开花哨的名字,IVF 实际上是相当简单的。IVF 通过

    2024年02月16日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包