小红书搜索引擎介绍

这篇具有很好参考价值的文章主要介绍了小红书搜索引擎介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

小红书是一个分享生活的社区,几亿中国人的生活经验,都在小红书。小红书的搜索引擎每天服务数千万用户,做几亿次检索。王树森博士以小红书的社区搜索为例,讲解搜索引擎的入门知识,包括搜索引擎的三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)——以及它们背后的机器学习、自然语言处理技术。本次分享的目的是让大家对现代先进的搜索引擎技术有初步认知,并了解大规模神经网络如何在搜索场景中落地。

小红书搜索引擎,搜索引擎

搜索引擎三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)

1、查询词处理

也就是利用NLP技术和规则对query做分词和理解

主要流程包括query分词、拼写纠错、同义词改写、词权重和核心词识别、类目识别和意图识别

2、召回

也就是快速取回与query相关的笔记

包括主通道的文本召回(倒排索引+召回规则)和旁路通道的向量召回(双塔模型)

(1)文本召回:与query中的文字做匹配,主要用到的就是倒排索引和一些抛词规则和扩召回等,只考虑语义信息,不考虑个性化

倒排也就是关键词到笔记ID,给一个词,就能把含有这个词的笔记找到,常见的是elasticsearch建索引做召回

抛词规则:例如query切分为多个token,为了召回相关足够多的笔记,可以文章来源地址https://www.toymoban.com/news/detail-677964.html

到了这里,关于小红书搜索引擎介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 搜索引擎:常用信息检索方式介绍与倒排索引实现(Python)

    (1)线性扫描 计算机对于文档内容检索有多种可能的方式,如直接从头遍历至尾端,根据我们输入的提取内容。 这类检索方式与我们人类阅读的习惯相同,因此实现简单且很容易被接受。 若问你《三国演义》中是否存在’舌战群儒’这一词语,我们常常会选择浏览全文

    2024年02月08日
    浏览(44)
  • [C++项目] Boost文档 站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍...

    Boost 库是 C++ 中一个非常重要的开源库. 它实现了许多 C++ 标准库中没有涉及的特性和功能, 一度成为了 C++ 标准库的拓展库. C++ 新标准的内容, 很大一部分脱胎于 Boost 库中. Boost 库的高质量代码 以及 提供了更多实用方便的 C++ 组件, 使得 Boost 库在 C++ 开发中会被高频使用 为方便

    2024年02月14日
    浏览(46)
  • 【Boost搜索引擎项目】Day1 项目介绍+去标签和数据清洗框架搭建

    🌈欢迎来到C++项目专栏 🙋🏾‍♀️作者介绍:前PLA队员 目前是一名普通本科大三的软件工程专业学生 🌏IP坐标:湖北武汉 🍉 目前技术栈:C/C++、Linux系统编程、计算机网络、数据结构、Mysql、Python 🍇 博客介绍:通过分享学习过程,加深知识点的掌握,也希望通过平台能

    2024年03月23日
    浏览(45)
  • ElasticSearch搜索引擎:常用的存储mapping配置项 与 doc_values详细介绍

    ES底层使用 Lucene 存储数据,Lucene 的索引包含以下部分: A Lucene index is made of several components: an inverted index, a bkd tree, a column store (doc values), a document store (stored fields) and term vectors, and these components can communicate thanks to these doc ids. 其中: inverted index:倒排索引。 bkd tree: Block k-d tre

    2024年02月07日
    浏览(35)
  • 搜索引擎-03-搜索引擎原理

    搜索引擎-01-概览 搜索引擎-02-分词与全文索引 搜索引擎-03-搜索引擎原理 Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介 Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容 Crawl WebMagic 爬虫入门使用简介 webmagic 全网搜索引擎的宏观架构如上图,核心子系统主要分为三部分(

    2024年04月08日
    浏览(81)
  • 搜索引擎有哪些,搜索引擎网站大全

    通过搜索引擎网站搜索,可以帮助我们快速找到自己需要的内容。很多同学只知道百度搜索,不知道还有其他什么搜索引擎网站。小编就来和大家分享搜索引擎网站有哪些,搜索引擎网站大全。 1.国内的搜索引擎网站大全 百度搜索(推荐),使用人数最多,搜索结果最多的中

    2023年04月26日
    浏览(138)
  • 什么是搜索引擎?2023 年搜索引擎如何运作?

    在当今的数字时代,搜索引擎已经成为人们获取信息的主要途径之一。然而,你是否知道搜索引擎是如何工作的,以及它们为什么如此重要? 搜索引擎是一种计算机程序,通过互联网或企业内部网络检索信息。用户输入或短语后,搜索引擎会扫描网络上的网页、文件、

    2024年02月16日
    浏览(52)
  • AI、大数据、量子计算、区块链、机器学习、深度学习、图像识别、NLP、搜索引擎、云计算、物联网、AR/VR、智能交通、智能驾驶等多个领域的基础技术到应用产品介绍

    作者:禅与计算机程序设计艺术 本文综述 AI、大数据、量子计算、区块链、机器学习、深度学习、图像识别、NLP、搜索引擎、云计算、物联网、AR/VR、智能交通、智能驾驶等多个领域,涵盖了从基础技术到应用产品的方方面面,大胆探索了未来数字化转型的机遇和挑战。 人工

    2024年02月11日
    浏览(55)
  • 如何(正确)使用搜索引擎?使用搜索引擎的高效技巧(例如:百度、谷歌)

              提起这个搜索引擎,我们对它就有三种级别的认识          第一种:完全不知道“搜索引擎”是什么或者是“我只知道浏览器”          第二种:知道搜索引擎,但不知道这玩意还有使用方式!          第三种:知道搜索引擎并知道怎么使用的大量相关知识

    2024年02月04日
    浏览(73)
  • Edge浏览器搜索栏固定为360搜索引擎 || 浏览器地址栏搜索,结果都是360搜索引擎

    搜索引擎的URL被篡改成了360搜索 ,很恶心。 打开 设置 = 隐私、搜索和服务 = 地址栏和搜索 (最下面) 可以看到可以选择 必应 或者 Google 再进入 管理搜索引擎 可以看到必应的URL已经被改成了 http://lx.pub/s?a=3b=%s ,正常应该是 https://www.bing.com/search?q=%s ,%s代表你搜索的内容。

    2024年02月10日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包