第六章 使用 SQL Search - 词干提取和分解

这篇具有很好参考价值的文章主要介绍了第六章 使用 SQL Search - 词干提取和分解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第六章 使用 SQL Search - 词干提取和分解

词干提取和分解

基本索引、语义索引、分析索引都可以支持词干提取和分解。词干提取和分解是基于单词的操作,而不是基于 NLP 实体的操作。定义 SQL 搜索索引时,必须启用词干分析和分解。要为词干感知搜索启用索引,请指定 INDEXOPTION=1;要同时启用词干感知搜索和分解感知搜索,请指定 INDEXOPTION=2

如果 SQL 搜索索引定义为支持词干提取 (1) 或词干提取和分解 (2),则可以通过设置 search_option 值在 search_index() 查询中使用这些功能。

Stemming

词干识别每个单词的词干形式。词干形式统一了同一单词的多种语法形式。当在查询时使用 search_option=1 时,SQL 搜索使用单词的词干形式(而不是实际的文本形式)执行搜索和匹配操作。通过使用 search_option=0,可以使用相同的索引进行常规(非词干)搜索。

如果词干提取处于活动状态,则通过确定搜索词的词干形式并使用该词干形式来匹配文本中的单词来执行搜索和匹配。例如,搜索词“doctors”与文本中的“doctor”或“doctors”匹配。当词干提取处于活动状态时,可以通过用引号将搜索列表中的单个单词括起来,将搜索词与其在文本中完全匹配:搜索词“doctors”仅与文本中的医生匹配。

Decompounding

分解将复合词分解为其组成词。 SQL 搜索总是将分解与词干结合起来;一旦一个单词被分成其组成部分,每个部分都会自动被词干化。使用分解搜索 (search_option=2) 时,SQL 搜索会将搜索词的分解词干与索引文本字段中单词的分解词干进行比较。仅当任何组成词的词干与搜索项的所有组成词匹配时,SQL 搜索才会匹配分解词。

例如,搜索词“thunder”“storm”“storms”都将与单词“thunderstorms”匹配。然而,搜索词“thunderstorms”不会与单词“thunder”匹配,因为它的另一个组成词(“storm”)不匹配。

SQL 搜索分解算法使用特定于语言的字典来识别可能的组成词。应通过 %iKnow.Stemming.DecompoundingUtils 类填充此字典。例如,通过在索引之前将其指向文本列。可能还希望免除特定单词的分解。可以使用 %iKnow.Stemming.DecompoundUtils 免除单个单词、字符序列和训练数据单词列表的分解。

IRIS 自然语言处理器不支持的语言

可以使用 SQL Search Basic 索引来索引和搜索没有相应 NLP 语言模型的语言的文本。

由于词干提取不依赖于 NLP 语义索引,因此如果词干分析器可用,还可以对单词的词干形式执行基本索引词搜索。必须指定 INDEXOPTION=1INDEXOPTION=2 才能执行词干搜索。例如,意大利语不是 NLP 支持的语言,但 IRIS 为意大利语提供了 %Text 词干分析器。

以下限制和警告适用于 NLP 不支持的语言的 SQL 搜索:文章来源地址https://www.toymoban.com/news/detail-820162.html

  • 使用此功能需要 IRIS 自然语言处理器许可证。
  • 该语言必须使用空格分隔单词。无法搜索不使用单词分隔符的语言。但是,可以搜索日语(不使用单词分隔符),因为 NLP 提供了日语语言模型。
  • 撇号不分隔单词。 NLP 识别缩写(例如“can’t”)和缩写动词形式(例如“there’s”)并将它们分成两个单词,同时忽略用于其他目的的撇号,例如所有格(“John's”)。如果没有 NLP 支持,SQL 搜索无法将缩写词和缩写词分成单独的单词。可以通过预处理文本、根据需要在撇号之前或之后插入空格来弥补这一点。
  • UserDictionary 无法应用于 SQL 搜索索引之前的文本。

到了这里,关于第六章 使用 SQL Search - 词干提取和分解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云原生微服务 第六章 Spring Cloud中使用OpenFeign

    第一章 Java线程池技术应用 第二章 CountDownLatch和Semaphone的应用 第三章 Spring Cloud 简介 第四章 Spring Cloud Netflix 之 Eureka 第五章 Spring Cloud Netflix 之 Ribbon 第六章 Spring Cloud 之 OpenFeign OpenFeign 全称 Spring Cloud OpenFeign,它是 Spring 官方推出的一种声明式服务调用与负载均衡组件。我们可

    2024年02月08日
    浏览(34)
  • python数据分析与应用:使用scikit-learn构建模型分析 第六章实训(1,2)

    有问题可以加我微信交流学习,bmt1014 (gcc的同学不要抄袭呀!) 一、实验目的 1、掌握skleam转换器的用法。 2、掌握训练集、测试集划分的方法。 3、掌握使用sklearm进行PCA降维的方法。 4、掌握 sklearn 估计器的用法。 5、掌握聚类模型的构建与评价方法。 6、掌握分类模型的构

    2024年02月09日
    浏览(49)
  • 第四章 使用 SQL Search - SQL search_items 语法

    基本索引 search_items 可以包含以下语法: 词搜索: Argument Description word1 word2 word3 指定这些确切的单词必须出现在文本中的某个位置(以任何顺序)。 (逻辑与)。您可以指定单个单词或由空格分隔的任意数量的单词。 word1 OR word2 NOT word3,word1 OR (word2 AND word3) search_items 可以包

    2024年01月23日
    浏览(37)
  • 第二章 使用 SQL Search

    本主题介绍 SQL Search 工具,这是一种用于执行上下文感知文本搜索操作的工具。要使用 SQL Search ,必须为包含要搜索的文本的每个列定义 SQL 搜索索引。然后,可以使用标准 SQL 查询以及包含 InterSystems SQL 搜索语法的 WHERE 子句来搜索文本记录。查询将返回包含指定搜索项的所

    2024年01月21日
    浏览(43)
  • 第三章 使用 SQL Search - 填充表

    与任何 SQL 索引一样,定义的 SQL 搜索索引(默认情况下)是在填充新表时构建的,并在随后插入、更新或删除数据时维护的。使用 %NOINDEX 填充表时,可以推迟索引的构建,然后使用 %Build() 方法构建索引。可以向已填充数据的表添加索引,然后构建该索引。 以下示例从 Avia

    2024年01月21日
    浏览(41)
  • 第五章 使用 SQL Search - 验证 SQL 搜索项字符串

    可以使用 %iFind.Utils.TestSearchString() 在方法来验证 search_items 字符串。此方法使能够检测语法错误和逻辑运算符的不明确使用。例如, “word1 AND word2 OR word3” 未通过验证,因为它在逻辑上不明确。添加括号可将此字符串澄清 为“word1 AND (word2 OR word3)”或“(word1 AND word2) OR word3”

    2024年01月23日
    浏览(44)
  • 《Linux操作系统编程》 第六章 Linux中的进程监控: fork函数的使用,以及父子进程间的关系,掌握exec系列函数

    🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《IDEA开发秘籍》学会IDEA常用操作,工作效率翻倍~💐 🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬

    2024年02月11日
    浏览(34)
  • 第六章 集合引用类型

    6.1 Object         到目前为止,大多数引用值的示例使用的是Object类型。Object是ECMAScript中最常用的类型之一。虽然Object的实例没有多少功能,但很适合存储和在应用程序间交换数据。         显式地创建Object的实例有两种方式。第一种是使用new操作符和Object构造函数,

    2024年01月18日
    浏览(46)
  • 第六章 Python函数

    系列文章目录 第一章 Python 基础知识 第二章 python 字符串处理 第三章 python 数据类型 第四章 python 运算符与流程控制 第五章 python 文件操作 第六章 python 函数 第七章 python 常用内建函数 第八章 python 类(面向对象编程) 第九章 python 异常处理 第十章 python 自定义模块及导入方法

    2024年02月06日
    浏览(42)
  • Python第六章作业

    目录 第1关 列表的属性与方法 第2关 推导式与生成器 第3关 列表的合并与排序 第4关 二维列表排序 第5关 动物重量排序 第6关 身份证号升位 第7关 完美立方数 第8关 约瑟夫环问题 第9关 文本分析(2)——统计英文文件中的单词数 第1关 列表的属性与方法 初始化一个空

    2024年02月05日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包