向量数据库的崛起:如何改变数据存储与机器学习的未来

这篇具有很好参考价值的文章主要介绍了向量数据库的崛起:如何改变数据存储与机器学习的未来。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

向量数据库的崛起:如何改变数据存储与机器学习的未来,人工智能

近年来,随着大量语言模型(LLMs)和生成式人工智能(GenAI)运动的兴起,向量数据库技术蓬勃发展,吸引了众多创业公司和投资者的关注。传统的关系数据库如Postgres或MySQL非常适合处理结构化数据——这些数据类型预定义明确,可以整齐地排列在行和列中。然而,对于图像、视频、电子邮件、社交媒体帖子等非结构化数据,传统数据库的处理方式就显得力不从心。

与此相对,向量数据库通过向量嵌入的形式存储和处理数据,将文本、文件、图像等数据转换为数值表征,捕捉不同数据点之间的含义和关系。这种方法非常适合机器学习,因为数据库根据各项数据的相关性在空间上存储数据,这使得检索语义上相似的数据变得更加容易。

这对于OpenAI的GPT-4等大型语言模型尤其有用,因为它允许AI聊天机器人通过分析以前的类似对话来更好地理解对话上下文。向量搜索还可用于各种实时应用,如社交网络或电商应用中的内容推荐,因为它可以快速查看用户搜索过什么,并检索出类似的项目。

向量搜索还可以帮助减少LLM应用中的“幻觉”,通过提供可能在原始训练数据集中不可用的额外信息。

向量搜索初创公司Qdrant的首席执行官兼联合创始人Andre Zayarni向TechCrunch解释说:“如果不使用向量相似度搜索,你仍然可以开发AI/ML应用,但你需要进行更多的重新训练和微调。当有大量数据集需要处理时,向量数据库就显得尤为重要,它是一个高效便捷处理向量嵌入的工具。”

今年1月,Qdrant获得了2800万美元的资金支持,凭借其快速增长成为去年增长最快的商业开源创业公司之一。并且,它远非唯一一个最近筹集资金的向量数据库初创公司——Vespa、Weaviate、Pinecone和Chroma去年共筹集了2亿美元用于各种向量产品。

自今年年初以来,我们还看到Index Ventures领投了Superlinked的950万美元种子轮融资,该平台将复杂数据转化为向量嵌入。几周前,Y Combinator(YC)公布了其2024年冬季群体,其中包括Lantern,这是一家为Postgres销售托管向量搜索引擎的初创公司。

此外,Marqo在去年年底获得了440万美元的种子轮融资,紧接着在2月份进行了1250万美元的A轮融资。Marqo平台提供全方位的向量工具,包括向量生成、存储和检索,使用户无需借助OpenAI或Hugging Face等第三方工具,通过单一API即可使用所有功能。

Marqo的联合创始人Tom Hamer和Jesse N. Clark曾在亚马逊担任工程师,他们意识到在不同模式如文本和图像上进行语义灵活搜索的巨大未满足需求。这促使他们在2021年离开亚马逊创立了Marqo。

Clark对TechCrunch表示:“在亚马逊从事视觉搜索和机器人技术工作时,我真正开始考虑向量搜索——我在思考新的产品发现方式,很快就聚焦于向量搜索。在机器人技术中,我利用多模态搜索来检索我们的图像,以识别可能存在的错误物体,比如软管和包裹,否则这些问题将非常难以解决。”

虽然向量数据库在ChatGPT和GenAI运动的喧嚣中正当其时,但它们并非适用于每一种企业搜索场景的灵丹妙药。

Percona的创始人Peter Zaitsev向TechCrunch解释说:“专用数据库往往专注于特定的用例,因此可以为所需任务的性能以及用户体验设计其架构,与需要适应当前设计的通用数据库相比。”

尽管专业数据库可能在某些方面表现出色但忽视了其他方面,我们开始看到数据库领域的老牌公司如Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB,以及像Microsoft的Azure、Amazon的AWS和Cloudflare这样的云服务提供商,都在添加向量数据库搜索技术。

Zaitsev将这一最新趋势与十多年前JSON的情况进行比较,当时网络应用变得更加普遍,开发者需要一种对人类来说易于阅读和编写的语言独立数据格式。在那种情况下,像MongoDB这样的文档数据库作为新的数据库类别出现,而现有的关系数据库也引入了JSON支持。

Zaitsev对TechCrunch表示:“我认为向量数据库也可能出现类似的情况。那些正在构建非常复杂和大规模AI应用的用户将使用专用的向量搜索数据库,而那些需要为其现有应用构建一些AI功能的人更可能在他们已经使用的数据库中使用向量搜索功能。”

但Zayarni和他的Qdrant同事们正押注,完全围绕向量构建的原生解决方案将提供所需的“速度、内存安全和规模”,随着向量数据的爆炸性增长,与那些将向量搜索作为后期添加的公司相比,原生解决方案将表现更优。

Zayarni说:“他们的宣传是,‘如果需要,我们也可以进行向量搜索’。而我们的宣传是,‘我们以最佳方式进行高级向量搜索’。这完全是关于专业化。我们实际上建议从你技术栈中已有的数据库开始。如果向量搜索是你解决方案的关键组成部分,用户终将面临限制。”文章来源地址https://www.toymoban.com/news/detail-861400.html

到了这里,关于向量数据库的崛起:如何改变数据存储与机器学习的未来的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch:什么是向量和向量存储数据库,我们为什么关心?

    Elasticsearch 从 7.3 版本开始支持向量搜索。从 8.0 开始支持带有 HNSW 的 ANN 向量搜索。目前 Elasticsearch 已经是全球下载量最多的向量数据库。它允许使用密集向量和向量比较来搜索文档。 向量搜索在人工智能和机器学习领域有许多重要的应用。 有效存储和检索向量的数据库对于

    2024年02月08日
    浏览(51)
  • 《向量数据库指南》:向量数据库Pinecone如何集成数据湖

    目录 为什么选择Databricks? 为什么选择Pinecone? 设置Spark集群 环境设置 将数据集加载到分区中 创建将文本转换为嵌入的函数 将UDF应用于数据 更新嵌入 摘要 使用Databricks和Pinecone在规模上创建和索引向量嵌入

    2024年02月15日
    浏览(37)
  • 《向量数据库指南》:向量数据库Pinecone如何集成LangChain (一)

    目录 LangChain中的检索增强 建立知识库 欢迎使用Pinecone和LangChain的集成指南。本文档涵盖了将高性能向量数据库Pinecone与基于大型语言模型(LLMs)构建应用程序的框架LangChain集成的步骤。   Pinecone使开发人员能够基于向量相似性搜索构建可扩展的实时推荐和搜索系统。另一方

    2024年02月15日
    浏览(37)
  • 使用Langchain+GPT+向量数据库chromadb 来创建文档对话机器人

    使用Langchain+GPT+向量数据库chromadb 来创建文档对话机器人 文件存放地址 参考: https://python.langchain.com/docs/use_cases/chatbots https://python.langchain.com/docs/integrations/vectorstores/chroma https://blog.csdn.net/v_JULY_v/article/details/131552592?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216945020581680022659096

    2024年02月03日
    浏览(38)
  • 《向量数据库指南》让「引用」为 RAG 机器人回答增加可信度

    在之前的文章中,我们已经介绍了如何用 Milvus 向量数据库以及 LlamaIndex 搭建基础的聊天机器人《 Chat Towards Data Science |如何用个人数据知识库构建 RAG 聊天机器人? 》 《 书接上回,如何用 LlamaIndex 搭建聊天机器人? 》。 本文将继续使用 LlamaIndex,并在前两篇文章的基础上

    2024年01月21日
    浏览(36)
  • 如何使用 Elasticsearch 作为向量数据库

    在今天的文章中,我们将很快地通过 Docker 来快速地设置 Elasticsearch 及 Kibana,并设置 Elasticsearch 为向量搜索。 在上面,我们指定了 elasic 超级用户的密码为 password。这在下面将要使用到。 验证容器是否已启动并正在运行: 从上面我们可以看到 Elasticsarch 及 Kibana 已经完全运行

    2024年04月17日
    浏览(73)
  • 用AI原生向量数据库Milvus Cloud 搭建一个 AI 聊天机器人

    搭建聊天机器人 一切准备就绪后,就可以搭建聊天机器人了。 文档存储 机器人需要存储文档块以及使用 Towhee 提取出的文档块向量。在这个步骤中,我们需要用到 Milvus。 安装轻量版 Milvus Lite,使用以下命令运行 Milvus 服务器: 或者,运行 Notebook 中的代码:

    2024年02月07日
    浏览(44)
  • 向量数据库入坑指南:初识 Faiss,如何将数据转换为向量(一)

    我们日常使用的各种 APP 中的许多功能,都离不开相似度检索技术。比如一个接一个的新闻和视频推荐、各种常见的对话机器人、保护我们日常账号安全的风控系统、能够用哼唱来找到歌曲的听歌识曲,甚至就连外卖配送的最佳路线选择也都有着它的身影。 相信很多同学是第

    2024年02月05日
    浏览(41)
  • LangChain 4用向量数据库Faiss存储,读取YouTube的视频文本搜索Indexes for information retrieve

    接着前面的Langchain,继续实现读取YouTube的视频脚本来问答Indexes for information retrieve LangChain 实现给动物取名字, LangChain 2模块化prompt template并用streamlit生成网站 实现给动物取名字 LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄 引用向量数据库Faiss 查看OpenAI model main.p

    2024年02月05日
    浏览(55)
  • 向量数据库如何解决大语言模型的“幻觉”问题

    向量数据库在解决大语言模型的“幻觉”问题方面可以发挥一定的作用。这个问题通常指的是大型语言模型在生成文本时过度依赖于训练数据,导致生成的内容过于特定,缺乏广泛的泛化性。以下是向量数据库可能采取的一些方法: 多样性的文本表示 : 向量数据库存储了大

    2024年01月17日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包