信息检索速通知识点

这篇具有很好参考价值的文章主要介绍了信息检索速通知识点。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 仅仅是我自己能想到的对这个分类的一个记忆。欢迎指正

首先,最重要的一点,什么是信息检索?

信息检索是从大规模无规则的数据中(主要是文档)中查询用户所需要的信息的过程。

然后,信息检索有哪几种索引呢?

混合索引。

轮排索引。什么是轮排索引呢,轮排索引又叫轮盘索引,有一个非常重要的符号叫$,$是用来表示扩展词结束的符号。

倒排索引。倒排索引最为著名和重要了。

k-gram索引。

二元词索引。

位置信息索引。

信息检索有哪几种检索方式呢?

布尔检索。

排名检索。

容错式检索。

评判信息检索效果的度量方式有哪些呢?

MRR。

AP。

MAP。

GG@k。

DCG@k。

IDCG@k。

信息检索的一些入门级例子有哪些?

会写and ,or ,not ,andnot的检索的伪代码,会写程序。

哈希表的优缺点:

优点:

查找速度比树快O(1)

缺点:

不容易找到次要变体;

无法进行前缀搜索;

如果词汇持续增长,就需要定期进行昂贵的重哈希操作。

树的优缺点:

优点:

解决了前缀问题。

缺点:

平衡树效率慢:O(logM)

重新进行平衡树是非常昂贵的。

一些查询方式?

通配符查询:*

K-means算法的优缺点:

优点:

1.简单且适用于常规不相交簇。

2.收敛速度相对较快

3.相对高效且可扩展

缺点;

1.需要预先指定k值

2.可能会收敛到局部最优

3.对噪声和异常值可能敏感

4.不适合集群

聚类的种类:

K-means聚类:需要指定的K,提供的答案是随机的

层次聚类:不需要指定的K,提供的答案是确定的。

基于密度的聚类:

数据库扫描法:DBSCAN

数据库扫描法的步骤:

1.找出每个点邻域内的点,并找出邻域内超过minpts的核心点。

2.找出邻居图上核心点的联通分量,忽略所有非核心点。

3.如果簇是E(eps),将每个非核心点分给临近的簇,否则将其分配给噪声。

线性回归:

过拟合:可以拟合数据,但测试数据误差较大,可能方差较大

欠拟合:无法拟合数据

梯度下降的技巧:

1.调整学习率

2.随机梯度下降

3.特征缩放

可能不是那么重要的知识点:

深度学习的三个步骤:定义一个功能神经网络的集合,比较功能的优劣性、选择最佳功能。

数据挖掘的定义?

数据挖掘是从大量的数据中自动提取出有用的信息和模式的过程。

BSBI算法(磁盘寻道更少的排序)的基本思想:

1.收集每个块的信息,排序,写入磁盘。

2.将区块合并成一个长排序顺序。

idf计算:N是集合中文档的总数量,df是包含那个词语的文档数量

信息检索速通知识点,信息检索,全文检索

tf-idf计算:(随文档出现次数的增加而增加、随术语在集合中的稀缺性而增加)信息检索速通知识点,信息检索,全文检索

使用哪种排名方式?

信息检索速通知识点,信息检索,全文检索文章来源地址https://www.toymoban.com/news/detail-806150.html

到了这里,关于信息检索速通知识点的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【全文检索】sqlite-fts4和pgsql的全文检索对比

    因为是Android项目,老系统中的全文检索是采用sqlite自带的fts4,然而后续由于地图要素全部转为线上,全文检索也需要同步在线查询,所以将整个全文检索的功能迁移到pgsql中。目前这块功能基本结束,这里来对两种全文检索方案做一个对比总结。 相比与fts5,fts4的好处是原生

    2024年02月05日
    浏览(45)
  • 全文检索-Es-初步检索(三)

    #为jmeter返回的结果 jmeter测试结果 请求头 http请求 put 返回结果 再次发送请求 post不带/带id保存 不带id 结果 二次请求结果 带id保存 结果 二次请求结果 结论 发送请求 查询-查看结果树 增加判断,确定是否修改 结果 查看修改是否成功 结果 更新文档 post/put带_update的请求(会比

    2024年02月14日
    浏览(43)
  • Elasticsearch 全文检索 分词检索-Elasticsearch文章四

    https://www.elastic.co/guide/en/enterprise-search/current/start.html https://www.elastic.co/guide/en/elasticsearch/reference/7.17/query-dsl-match-query.html Full text Query中,我们只需要把如下的那么多点分为3大类,你的体系能力会大大提升 很多api都可以查得到,我们只要大概知道有支持哪些功能 Elasticsearch 执行

    2024年02月14日
    浏览(52)
  • Lucene全文检索

    Lucene 是一个基于 Java 的全文信息检索工具包,目前主流的搜索系统 Elasticsearch 和 solr 都是基于 lucene 的索引和搜索能力进行。 Solr与Lucene的区别: Solr和Lucene的本质区别三点:搜索服务器,企业级和管理。 Lucene本质上是搜索库,不是独立的应用程序,而Solr是。 Lucene专注于搜索

    2024年02月09日
    浏览(46)
  • elasticsearch全文检索

    传送门 best_fields 传送门 most_fields 当查询多字段包含相同文本以不同方式分词的时候此参数最有用, 传送门 cross_fields phrase和phrase_prefix 传送门 传送门

    2024年02月07日
    浏览(46)
  • MySQL中文全文检索

    常规数据库搜索都是用 like 语句,但是like 语句是不能利用索引的,查询效率极其低下。这也就是为什么很多功能都只提供标题搜索的原因,因为如果搜索内容,几万数据就跑不动了。 Mysql 全文索引是专门为了解决模糊查询提供的,可以对整篇文章预先按照词进行索引,搜索

    2024年02月14日
    浏览(44)
  • ElasticSearch-全文检索

    https://www.elastic.co/cn/what-is/elasticsearch 全文搜索属于最常见的需求,开源的Elasticsearch是目前全文搜索引擎的首选。 它可以快速地储存、搜索和分析海量数据。 维基百科、StackOverflow、Github都采用它。 Elastic的底层是开源库Lucene。但是,你没法直接用Lucene,必须自己写代码去调用

    2024年04月17日
    浏览(37)
  • mysql全文检索使用

    数据库数据量10万左右,使用like \\\'%test%\\\'要耗费30秒左右,放弃该办法 使用mysql的全文检索 第一步:建立索引 首先修改一下设置: my.ini中ngram_token_size = 1 可以通过    show variables like \\\'%token%\\\';来查看 接下来建立索引:alter  table 表名 add fulltext titlefull (字段名) with parser ngram; 第二步

    2024年02月12日
    浏览(38)
  • MongoDB 全文检索

    全文检索对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 这个过程类似于通过字典中的检索字表查字的过程。 MongoDB 从 2.4 版本开始支持全文检索,目前支持

    2024年02月02日
    浏览(39)
  • MySQL 中文全文检索

    创建索引(MySQL 5.7.6后全文件索引可用WITH PARSER ngram,针对中文,日文,韩文) 查询方法 注意 只能在类型为CHAR、VARCHAR或者TEXT的字段上创建全文索引。 全文索引只支持InnoDB和MyISAM引擎。 MATCH()函数使用的字段名,必须要与创建全文索引时指定的字段名一致。 多个字段索引,

    2024年02月12日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包