📚信息检索
🐇概念
- 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。
🐇结构化与非结构化数据
-
结构化数据倾向于引用“表格”中的信息,通常允许数值范围和精确匹配查询。
- 非结构化数据通常引用自由文本,指的是那些没有清晰和明显语义结构的数据,而计算机不易处理这类数据。它允许关键字查询(包括操作符)以及更复杂的“概念”查询。它是文本文档检索的经典模型。
结构化数据
即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据
是相对于结构化数据而言的,不方便用数据库二维逻辑表来表现的数据。
🐇信息检索的基本假设
- 集合:一组文档(假设它目前是静态集合)。
- 目标:检索与用户信息需求相关的文档,并帮助用户完成任务。
-
经典搜索模型
-
分类
-
Web搜索
(Web search):大规模分布式文档的检索。 -
面向企业、机构和特定领域的搜索
(Domin-specific search):对公司内部文档、专利库或生物医学文献等的搜索。 -
个人信息检索
(Personal information retrieval):操作系统或系统应用中融合的信息检索功能。
-
🐇信息检索小结
🐇附:IR新课题
📚数据挖掘
🐇定义
🐇数据挖掘 vs 机器学习
- AI说:
- 数据挖掘和机器学习都是处理大数据的方法,它们之间的区别在于目的和方法。
- 数据挖掘旨在寻找数据中的模式、规律和关系,以从中提取有价值的信息。数据挖掘的方法是使用各种技术和算法,例如聚类、分类、关联规则挖掘等。
- 机器学习则是一种人工智能技术,在某种程度上可以看做是数据挖掘的一种扩展。机器学习旨在让计算机根据数据自主学习,建立模型,从而预测、分类或识别未来的数据。机器学习的方法包括监督学习、无监督学习和半监督学习等。
-
数据挖掘是用来理解事物的。
-
机器学习是用来预测事物的。
-
人工智能是用来生成行动的。
- Data contains value and knowledge.
- Data mining around us.
🔥分类
文章来源:https://www.toymoban.com/news/detail-699718.html
🔥聚类
🔥降维
文章来源地址https://www.toymoban.com/news/detail-699718.html
- PCA主成分分析
- 降维:LDA
到了这里,关于信息检索与数据挖掘 |(一)介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!