百度自研高性能ANN检索引擎，开源了

10月前作者：百度Geek说分类：Toy博客阅读(43) 违法举报

这篇具有很好参考价值的文章主要介绍了百度自研高性能ANN检索引擎，开源了。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

百度自研高性能ANN检索引擎，开源了,开源,百度,搜索引擎

作者 | Puck项目组

导读

Puck是百度自研的开源ANN检索引擎。Puck开源项目包含两种百度自研的检索算法，以高召回、高准确、高吞吐为目标，适用于多种数据规模和场景。随着业务发展不断的优化和迭代，进行充分的技术开发和测试，确保了技术的可靠性和成熟度。该项目于2019年厂内开源，广泛应用于内部多条产品线，支撑万亿级数据和海量请求。在benchmark上显示，Puck在千万、亿、十亿等多个数据集上，性能优势明显。

全文2682字，预计阅读时间7分钟。

ANN全称近似最近邻检索（Approximate Nearest Neighbor），目标是从全量向量数据中寻找距离最近的TopK个向量，同时需要平衡检索效果和检索成本。自2012年AlexNet出现之后，深度学习在图像领域大放异彩，2017年 transformer的推出重构了NLP领域，基于语义的检索颠覆了传统检索领域，使得ANN技术广泛应用于搜索、推荐等多个场景，成为互联网的基础技术之一。

做为研究热点，无论学术界还是工业界，近些年都出现了许多ANN算法的创新研究和应用，包括基于分区和基于图形的索引策略、混合RAM和SSD存储以高效存储和处理超过RAM大小的大型数据集、使用加速器硬件、利用机器学习来降低原始矢量的维度，以及Spotify的ANNOY、Google的ScaNN、Facebook的Faiss和HNSW等。

01 Puck 是什么？

Puck是百度自研的高性能ANN检索引擎，名称取自经典MOBA游戏DOTA中的智力英雄-Puck，是飘逸、灵动的代表。

我们很早即投入自研近似最近邻检索算法（ANN）的研究，2017年Puck完成首次上线，2019年底内部开源，目前已广泛应用于百度内部多条产品线，随着业务发展不断的优化和迭代，进行了充分的技术研发和测试，确保了技术的领先性和成熟度。

Puck开源项目包含两种百度自研的检索算法Puck&Tinker，以高召回、高准确、高吞吐为目标，在大中小数据集上都有优异表现。在benchmark的千万、亿、十亿等多个数据集上，Puck性能优势明显，均显著超过竞品。在2021年底Nerulps举办的全球首届向量检索大赛BIGANN比赛中，Puck参加的四个项目均获得第一。

02 Puck 优势有哪些？

1、易用性：提供简单易用的API接入，尽量少的暴露参数，大部分参数使用默认即可达到良好性能。

**2、扩展性：**采用完全自研的索引结构，支持多种功能扩展，适应多种场景，项目模块划分合理，便于改造优化，可方便用户接口自行添加。

3、高性能：在benchmark的千万、亿、十亿等多个数据集上，Puck性能优势明显，均显著超过竞品。

4、可靠性：经过多年在实际大规模场景下的验证打磨，广泛应用于百度内部包括搜索、推荐等三十余条产品线，支撑万亿级索引数据和海量检索请求。

03 Puck 性能优势

Puck 在开源前，曾参加过首届国际向量检索大赛BigANN。首届国际向量检索大赛BigANN是由人工智能领域全球顶级学术会议NeurIPS发起，由微软、facebook等公司协办的全球最高水平的赛事，旨在提升大规模ANN的研究创新和生产环境中的落地应用。

百度自研高性能ANN检索引擎，开源了,开源,百度,搜索引擎

虽是首届大赛，但因NeurIPS的极高知名度和权威性，吸引了众多知名企业和顶尖大学的同台竞技。本届比赛已于2021年12月NeurlPS’21会议期间公布结果，Puck在参赛的四个数据集中均排名第一。

除此之外，Puck持续地优化和迭代，以保持其在变化的业务环境中提供高效的检索性能。除了十亿数据集以外，我们构建了亿级&千万级benchmark，创建了更符合真实工业生产环境的benchmark机制和环境，Puck&Tinker在多个数据集上性能优势明显。

BIGANN-10M

百度自研高性能ANN检索引擎，开源了,开源,百度,搜索引擎

百度自研高性能ANN检索引擎，开源了,开源,百度,搜索引擎

△deep-10M和BIGANN-10M数据集上，召回率 VS QPS的性能图

更详细benchmark见：

https://github.com/baidu/puck/tree/main/ann-benchmarks

04 Puck 功能拓展

为了让 Puck 更加亲民，我们还做了多个功能的拓展，目前可以实现：

1、实时插入：支持无锁结构的实时插入，做到数据的实时更新。

2、条件查询：支持检索过程中的条件查询，从底层索引检索过程中就过滤掉不符合要求的结果，解决多路召回归并经常遇到的截断问题，更好满足组合检索的要求。

3、分布式建库：索引的构建过程支持分布式扩展，全量索引可以通过map-reduce一起建库，无需按分片build，大大加快和简化建库流程。

4、自适应参数：ANN方法检索参数众多，应用起来有不小门槛，不了解技术细节的用户并不容易找到最优参数，Puck提供参数自适应功能，在大部分情况下使用默认参数即可得到很好效果。

05 Puck 在业务中的使用

在开源前，Puck在多个业务中已经进行了大规模的有效验证。

Puck于2017年初启动研发，2017年底首次上线，2019年百度内部开源，持续打磨至今，目前广泛应用于百度内部包括搜索、推荐等三十余条产品线，支撑万亿级索引数据和海量检索请求。

百度自研高性能ANN检索引擎，开源了,开源,百度,搜索引擎

△ANN检索在业务应用中的位置

Puck 开源后，鼓励开发者之间的合作和共享，同时支持大家进行知识的分享和传播，打造活跃而广泛的生态，促进项目的高速、可持续发展，从而推动技术的创新。

Puck遵循 Apache 2.0 开源协议，尊重和保护原作者的创作权，开放使用包括商业化及二次开源。

希望大家将好的使用经验反馈给我们，如有问题可以加入【QQ群:913964818】随时咨询。

同时，欢迎大家成为社区贡献者，积极参与开源贡献，解决自身诉求、提升个人成长的同时得到正向激励。

在你因为参与开源而得到回报的时候，你也在影响着开源领域的发展，促进开源领域向更加广阔的方向奔涌而去。

BigANN比赛详情：

https://big-ann-benchmarks.com/neurips21.html

BigANN比赛结果：

https://github.com/harsha-simhadri/big-ann-benchmarks/blob/main/neurips21/t1_t2/README.md#results-for-t1

Puck开源地址：

https://github.com/baidu/puck

——END——

推荐阅读

存储方案作为产品——Midgard探索

百度垂类离线计算系统发展历程

度加剪辑App的MMKV应用优化实践

百度工程师浅析解码策略

百度工程师浅析强化学文章来源地址https://www.toymoban.com/news/detail-703015.html

到了这里，关于百度自研高性能ANN检索引擎，开源了的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

ClickHouse进阶｜如何自研一款企业级高性能网关组件？

使用原生ClickHouse集群进行节点数据查询和写入时，离不开第三方开源网关组件chproxy支持。但由于chproxy缺少TCP协议支持，导致性能、查询能力等受限。这也成为困扰众多ClickHouse开发者的一大难题。那么，究竟应该如何突破？本文将揭秘火山引擎ByteHouse企业版自研网关组件如何

2024年02月07日
浏览(49)
高性能的全文检索库Apache Lucene 介绍

Apache Lucene 是一个高性能的全文检索库，由 Apache Software Foundation 维护。Lucene 提供了丰富的 API，用于实现快速、准确的全文搜索。本文将详细介绍 Apache Lucene 的技术特点、应用场景和优势。 Apache Lucene 的历史和发展 Apache Lucene 起源于 1999 年

2024年03月27日
浏览(53)
大规模数据量下ES如何实现高性能检索？

ElasticSearch，是基于Lucene库的搜索引擎。它提供了一个分布式、多租户的全文搜索引擎，具有HTTP web接口和无模式JSON文档。根据DB引擎排名，Elasticsearch是最受欢迎的企业搜索引擎。ES的特点是分布式、高扩展以及近实时。那么，大规模数据量下ES是如何实现高性能检索的呢？说

2024年02月16日
浏览(105)
阿里开源自研高性能核心搜索引擎 Havenask

去年12月，阿里开源了自研的大规模分布式搜索引擎 Havenask（内部代号 HA3）。 Havenask 是阿里巴巴内部广泛使用的大规模分布式检索系统，支持了淘宝、天猫、菜鸟、优酷、高德、饿了么等在内整个阿里的搜索业务，是过去十多年阿里在电商领域积累下来的核心竞争力产品

2024年02月04日
浏览(45)
Redis实现高性能的全文搜索引擎---RediSearch

RediSearch是一个Redis模块，为Redis提供查询、二次索引和全文搜索，他的性能甚至比es还要高。注意端口号不要和redis冲突了：

2024年02月16日
浏览(61)
网易NDH基于Impala的高性能SQL引擎建设实践

导读：本文将从四个方面来进行介绍。首先是分析在网易NDH中使用 Impala 过程遇到的一些痛点；第二个部分是基于这些痛点问题，我们提出了建设高性能SQL引擎的方案，以及这些方案是基于什么原则来创建的；第三个是基于这些原则，我们做了哪些的优化实践的尝试；最后会

2024年02月09日
浏览(47)
高性能、快响应！火山引擎 ByteHouse 物化视图功能及入门介绍

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群物化视图是指将视图的计算结果存储在数据库中的一种技术。当用户执行查询时，数据库会直接从已经预计算好的结果中获取数据，而不需要重新计算视图。具体来说，物化视图是

2023年04月27日
浏览(44)
【java表达式引擎】四、高性能、轻量级的AviatorScript

github：(https://github.com/killme2008/aviatorscript%60) 参考文档1：https://www.yuque.com/boyan-avfmj/aviatorscript 参考博客2：https://blog.csdn.net/ZhangQingmu/article/details/125087255 Aviator起源于2011年，由国内的开发者开源的，表达式引擎表达式引擎当时国内开源的已经有 IKExpression，可惜是纯解释执行的，

2024年02月10日
浏览(55)
体验开源香山高性能开源 RISC-V 处理器

香山处理器是乱序六发射结构设计，目前支持 RV64GCBK 扩展。香山处理器前端流水线包括分支预测单元、取指单元、指令缓冲等单元，顺序取指。后端包括译码、重命名、重定序缓冲、保留站、整型/浮点寄存器堆、整型/浮点运算单元。 https://xiangshan-doc.readthedocs.io/zh-cn/latest/

2024年01月23日
浏览(53)
工业级高性能3D模型渲染引擎，专注于3D Web轻量化！

一、技术概览 HOOPS Communicator 是一个SDK，用于在Web浏览器中开发3D工程应用程序，重点在于：完全访问工程数据使用方便快速发展高性能可视化快速模型流灵活使用和部署点击此处获取3D模型轻量化及格式转换解决方案它的主要组件是 HOOPS Web查看器，这是一个功能强大

2024年02月07日
浏览(35)