火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力

这篇具有很好参考价值的文章主要介绍了火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

从互联网发展伊始,搜索技术就绽放出了惊人的社会和经济价值。随着信息社会快速发展,数据呈爆炸式增长,搜索技术通过数据收集与处理,满足信息共享与快速检索的需求。

云搜索服务 ESCloud 是火山引擎提供的完全托管在线分布式搜索服务,兼容 Elasticsearch、Kibana 等软件及常用开源插件。可以提供结构化、非结构化文本的多条件检索、统计、报表,帮助实现一键部署、弹性扩缩、简化运维,快速构建日志分析、信息检索分析等实际业务。

而伴随着 Serverless 的兴起和大势所向,火山引擎云搜索服务升级云原生新架构

云搜索服务云原生版

火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力,火山引擎,云原生,数据库

k-NN,大模型时代下的原生向量搜索和数据库

随着推荐、音视频等新兴领域应用的涌现和对大模型场景的需求,引入多模态搜索来满足更加复杂的搜索需求势在必行。我们在全文检索的基础上增加向量搜索能力来实现对非结构化数据的分析和检索

在向量搜索的场景下,使用机器学习模型生成向量来表示数据对象(文本、图像、音视频等);向量距离来代表对象间的相似性。常用的向量库使用 ANN 算法在极短时间内完成海量向量的检索。

k-NN 可以作为向量数据库来使用,通过引入先进的向量算法库来构建向量索引,还会将构建好的向量索引持久化到磁盘,索引更加稳定。结合 ESCloud 产品的倒排索引,可以将向量检索和全文检索的能力融合,实现更加强大的混合搜索(Hybrid Search)能力。在 ESCloud 的集群基础上,k-NN 向量数据库可以提供大规模分布式能力,为用户带来可扩展数量级的向量搜索。

火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力,火山引擎,云原生,数据库

场景案例

基于 k-NN 的业务场景主要有以下六大类,目前在字节跳动内部复杂的业务场景中均有所运用:

  • 多模态搜索:包括图片搜索,语义搜索,音视频相似性检索等;

  • 智能推荐: 视频推荐,广告投放推荐,关系推荐,商品推荐等;

  • 智能问答:基于 Transformer 的 FAQ,LLM 的领域知识问答,LangChain 集合的生成式QA;

  • 数据消重:视频、音频、图片的审核消重,各类素材版权检测;

  • 安全风控:欺诈检测,扫黑检测,危险评估,异常检测;

  • 其他应用:数据挖掘,数据分析,搜索重排序, 文本搜图。

以文案相似度识别方案为例。

火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力,火山引擎,云原生,数据库

在用户推送文案的场景下,为保证用户体验,需要确保推送文案不会有重复内容,因此对每个推送的内容都会进行相似度识别并消重。每个文案通过 BERT 模型生成 Embedding,在云搜索中检索一次。如果相似度低于阈值,判定为新的文案,会写入 k-NN 向量数据库中,逐渐完善成一个文案库;如果相似度高于阈值,则判定为重复文案,减少推送量。


云搜索服务 ESCloud 兼容 Elasticsearch、Kibana 等软件及常用开源插件,提供结构化、非结构化文本的多条件检索、统计、报表,可以实现一键部署、弹性扩缩、简化运维,快速构建日志分析、信息检索分析等业务能力。文章来源地址https://www.toymoban.com/news/detail-559651.html

到了这里,关于火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据剖析更灵活、更快捷,火山引擎 DataLeap 动态探查全面升级

    更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群 近期,火山引擎 DataLeap 上线“动态探查”能力,为用户提供全局数据视角、完善的抽样策略,提高数据探查的灵活度以及响应速率。 传统的数据探查是基于库表的全量探查,由后

    2024年02月03日
    浏览(38)
  • 湖仓一体架构在火山引擎 LAS 的探索与实践

    动手点关注 干货不迷路 火山引擎湖仓一体分析服务 LAS(Lakehouse Analytics Service),是面向湖仓一体架构的 Serverless 数据处理分析服务,提供字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto 生态,帮助企业轻松构建智能实时湖仓。 LAS 服务是

    2024年02月06日
    浏览(33)
  • Elasticsearch Serverless:无服务器架构的搜索引擎解决方案

    随着云计算和无服务器架构的兴起,传统的应用开发方式正在经历革命性的变化。在这个变革的浪潮中,Elasticsearch Serverless崭露头角,成为构建强大搜索引擎的新选择。本文将深入探讨Elasticsearch Serverless的概念、优势,以及如何在无服务器环境中利用它构建灵活而高效的搜索

    2024年03月14日
    浏览(61)
  • 使用火山云搜索ESCloud服务构建图文检索应用(以文搜图/以图搜图)

    图文检索在生活中具有广泛的应用,常见的图片检索包括基于文本内容搜索和基于图片内容搜索。用户通过输入文字描述或上传图片就可以在海量的图片库中快速找到同款或者相似图片,这种搜索方式被广泛应用于电商、广告、设计以及搜索引擎等热门领域。 本文 基于 火山

    2024年02月14日
    浏览(31)
  • DigitalOcean 数据备份技术架构升级,并提供每日自动备份功能

    据统计,目前全有超过60%的中小企业数据存储在公有云中。但是,数据量和生成数据的速度都在以惊人的速度增长,这意味着中小企业比以前更需要防范数据中断带来的风险。 备份是每个企业数据保护策略的关键一环。DigitalOcean 备份是由 Droplet (DigitalOcean 的 VPS 产品)磁盘

    2024年03月21日
    浏览(54)
  • 架构师系列-搜索引擎ElasticSearch(一)

    wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.5- linux-x86_64.tar.gz tar -zvxf elasticsearch-7.17.5-linux-x86_64.tar.gz 关闭防火墙 配置elasticsearch.yml   修改Linux句柄数   关闭swap 因为ES的数据大量都是常驻内存的,一旦使用了虚拟内存就会导致查询速度下降,一般需要关闭 swap,

    2024年04月14日
    浏览(35)
  • 架构师系列-搜索引擎ElasticSearch(四)- 高级查询

    ES查询 该方式可以通过kabana、curl、elasticsearch-head(纯前端)去操作 term查询和字段类型有关系,首先回顾一下ElasticSearch两个数据类型 ElasticSearch两个数据类型 1、text:会分词,不支持聚合 2、keyword:不会分词,将全部内容作为一个词条,支持聚合 term查询:不会对查询条件进

    2024年04月15日
    浏览(60)
  • 开源云原生数仓引擎ByConity 存储计算分离架构和优势

    供稿 | ByConity技术团队 出品 | CSDN 云计算 ByConity是一款字节跳动开源的云原生数仓引擎。它的一个重要优势是 采用存储计算分离的架构,实现了读写分离和弹性扩缩容 。这种架构确保读操作和写操作不会相互影响,使得计算资源和存储资源解耦,两者可以按需的且独立的扩缩

    2024年02月06日
    浏览(40)
  • 深入了解Elasticsearch搜索引擎篇:倒排索引、架构设计与优化策略

    倒排索引是一种用于快速检索的数据结构,常用于搜索引擎和数据库中。与传统的正排索引不同,倒排索引是根据来建立索引,而不是根据文档ID。 倒排索引的建立过程如下:首先,将每个文档拆分成一系列的或词项,然后建立一个词项到文档的映射。对每个关

    2024年02月12日
    浏览(45)
  • 后端架构师必知必会系列:搜索引擎与全文检索

    作者:禅与计算机程序设计艺术 什么是搜索引擎?它是指在互联网上搜集、整理并快速索引海量信息的数据结构与数据库,对用户的查询请求进行快速、准确的响应的技术。搜索引擎又分为互联网搜索引擎(英语: internet search engine)和本地搜索引擎(英语: local search engine)。 全文

    2024年02月05日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包