小红书是一个分享生活的社区,几亿中国人的生活经验,都在小红书。小红书的搜索引擎每天服务数千万用户,做几亿次检索。王树森博士以小红书的社区搜索为例,讲解搜索引擎的入门知识,包括搜索引擎的三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)——以及它们背后的机器学习、自然语言处理技术。本次分享的目的是让大家对现代先进的搜索引擎技术有初步认知,并了解大规模神经网络如何在搜索场景中落地。
搜索引擎三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)
1、查询词处理
也就是利用NLP技术和规则对query做分词和理解
主要流程包括query分词、拼写纠错、同义词改写、词权重和核心词识别、类目识别和意图识别
2、召回
也就是快速取回与query相关的笔记
包括主通道的文本召回(倒排索引+召回规则)和旁路通道的向量召回(双塔模型)
(1)文本召回:与query中的文字做匹配,主要用到的就是倒排索引和一些抛词规则和扩召回等,只考虑语义信息,不考虑个性化
倒排也就是关键词到笔记ID,给一个词,就能把含有这个词的笔记找到,常见的是elasticsearch建索引做召回文章来源:https://www.toymoban.com/news/detail-677964.html
抛词规则:例如query切分为多个token,为了召回相关足够多的笔记,可以文章来源地址https://www.toymoban.com/news/detail-677964.html
到了这里,关于小红书搜索引擎介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!