Elasticsearch安装分词插件[ES系列] - 第499篇

这篇具有很好参考价值的文章主要介绍了Elasticsearch安装分词插件[ES系列] - 第499篇。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

历史文章(文章累计490+)

国内最全的Spring Boot系列之一

国内最全的Spring Boot系列之二

国内最全的Spring Boot系列之三

国内最全的Spring Boot系列之四

国内最全的Spring Boot系列之

国内最全的Spring Boot系列之六

ElasticSearch应用场景以及技术选型[ES系列] - 第496篇

ElasticSearch详细搭建以及常见错误high disk watermark [ES系列] - 第497篇

Elasticsearch可视化平台Kibana [ES系列] - 第498篇

悟纤:师傅,我发现我在解决问题时总是很慢,怎么办呢?

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

师傅:不要着急。首先你要明白,解决问题需要时间和耐心。你可以尝试将问题分解成更小的部分,然后一步一步地去解决。

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

悟纤:分解问题?能具体说说怎么做吗?

师傅:当然。比如说,你可以将一个大问题拆分成几个小问题,然后逐一解决。或者,你可以将问题按照紧急程度和重要性进行分类,优先解决重要的问题。

悟纤:这样确实有帮助。那么,还有其他方法可以提升我的问题解决速度吗?

师傅:当然。你可以通过练习来提高你的问题解决速度。你可以找一些类似的问题进行练习,这样可以帮助你更好地掌握解决问题的方法和技巧。

悟纤:我明白了,师傅。我会尝试这些方法的。

师傅:很好,徒儿。记住,解决问题的关键在于思考和行动。只要你不断地思考和尝试,你一定能够提高你的问题解决速度。

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

导读

Hi,大家好,我是悟纤。我就是我,不一样的烟火。我就是我,与众不同的小苹果。

分词器接受一个字符串作为输入,将 这个字符串拆分成独立的词或 语汇单元(token) (可能会丢弃一些标点符号等字符),然后输出一个 语汇单元流(token stream)

一、ES内置分词器

事实上,ElasticSearch中有一些内置分词器:

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

Standard 分词器:默认分词器,会将词汇单元转成小写形式并且去除停用词和标点符号,支持中文采用的方法为单字切分。

Simple 分词器:首先会通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式。该分词器会去除掉数字类型的字符。

Whitespace 分词器:仅仅是去除空格,对字符没有lowcase化,不支持中文;并且不对生成的词汇单元进行其他标准化处理。

Stop 分词器:相比Simple Analyzer多了去除请用词处理,停用词指语气助词等修饰性词语,如the, an, 的, 这等

Keyword 分词器:不分词,直接将输入作为一个单词输出

Pattern 分词器:通过正则表达式自定义分隔符,默认是\W+,即非字词的符号作为分隔符

Language 分词器:特定语言的分词器,不支持中文。如 english 、french 和 spanish 分析器。

应该说,standard 分词器是大多数西方语言分词的一个合理的起点。 事实上,它构成了大多数特定语言分析器的基础,如 english 、french 和 spanish 分析器。 它也支持亚洲语言,只是有些缺陷(=.=To Be Honest , 你输入任何中文,都会被拆成一个一个的文字来分词,简直不要太糟糕),你可以考虑通过 ICU 插件的方式使用 icu_analyzer 进行中文分词更合理。

二、ICU 分析器插件

Elasticsearch的 ICU 分析器插件 使用 国际化组件 Unicode (ICU) 函数库提供丰富的处理 Unicode 工具。 这些包含对处理亚洲语言特别有用的 icu_分词器 ,还有大量对除英语外其他语言进行正确匹配和排序所必须的分词过滤器。

ICU 插件是处理英语之外语言的必需工具,非常推荐你安装并使用它,不幸的是,因为是基于额外的 ICU 函数库, 不同版本的ICU插件可能并不兼容之前的版本,当更新插件的时候,你需要重新索引你的数据(=。=根据你的ES版本替换后面的版本号,是6.8.1,则用6.8.1,你用7.3.0就用7.3.0,类推)。

2.1在线安装analysis-icu分词插件

安装命令如下:

<span style="color:#333333"><span style="background-color:#fafafa"><code><span style="color:#afafaf"><em>#查看已安装插件</em></span></code><code>bin/elasticsearch-plugin list</code><code><span style="color:#afafaf"><em>#安装插件</em></span></code><code>bin/elasticsearch-plugin <span style="color:#ca7d37">install</span> analysis-icu</code><code><span style="color:#afafaf"><em>#删除插件</em></span></code><code><span style="color:#ca7d37">bin</span>/elasticsearch-<span style="color:#ca7d37">plugin</span> remove analysis-icu</code><code>​</code></span></span>

特别说明:这里要求是bin/这样的写法,不然插件无法安装到目录plugins下。

其它说明:安装和删除完插件后,需要重启ES服务才能生效。

使用kibana测试分词效果:

<span style="color:#333333"><span style="background-color:#fafafa"><code>POST _analyze</code><code>{</code><code><span style="color:#dd1144">"analyzer"</span>:<span style="color:#dd1144">"icu_analyzer"</span>,</code><code><span style="color:#dd1144">"text"</span>:<span style="color:#dd1144">"中华人民共和国"</span></code><code>}</code><code>​</code></span></span>

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

看右边的分词效果还不错。

2.2离线安装ik中文分词插件

本地下载elasticsearch-analysis-ik-x.x.x.zip插件,解压,

然后手动上传到elasticsearch的plugins目录,然后重启ES实例就可以了。

ik中文分词插件:

https://github.com/medcl/elasticsearch-analysis-ik

https://github.com/xiaoxinda/elasticsearch-analysis-ik/releases

<span style="color:#333333"><span style="background-color:#fafafa"><code><span style="color:#afafaf"><em>#ES的默认分词设置是standard,会单字拆分</em></span></code><code>POST _analyze</code><code>{</code><code>    <span style="color:#dd1144">"analyzer"</span>:<span style="color:#dd1144">"standard"</span>,</code><code>    <span style="color:#dd1144">"text"</span>:<span style="color:#dd1144">"中华人民共和国"</span></code><code>}</code><code>​</code><code><span style="color:#afafaf"><em>#ik_smart:会做最粗粒度的拆</em></span></code><code>POST _analyze</code><code>{</code><code>    <span style="color:#dd1144">"analyzer"</span>: <span style="color:#dd1144">"ik_smart"</span>,</code><code>    <span style="color:#dd1144">"text"</span>: <span style="color:#dd1144">"中华人民共和国"</span></code><code>}</code><code>​</code><code><span style="color:#afafaf"><em>#ik_max_word:会将文本做最细粒度的拆分</em></span></code><code>POST _analyze</code><code>{</code><code>    <span style="color:#dd1144">"analyzer"</span>:<span style="color:#dd1144">"ik_max_word"</span>,</code><code>    <span style="color:#dd1144">"text"</span>:<span style="color:#dd1144">"中华人民共和国"</span></code><code>}</code><code>​</code></span></span>

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

字段说明:

(1)token:分词

(2)start_offset:分词起始位置

(3)end_offset:分词结束位置

(4)type:

(5)position:记录单词在文档中的分词位置(多个),用于做词语搜索(Phrase Query)

特别说明:对于字段start_offset和end_offset主要用于高亮显示。

Elasticsearch安装分词插件[ES系列] - 第499篇,ElasticSearch从入门到精通,elasticsearch,大数据

• 阿里巴巴前高级研发工程师

• 三家千万级互联网企业技术顾问

• MBTI/盖洛普技术专家

• 厦门某高校外聘教师

• 51CTO特约合作讲师

• 网易云课堂签约讲师

•《深入理解设计模式》作者文章来源地址https://www.toymoban.com/news/detail-785194.html

到了这里,关于Elasticsearch安装分词插件[ES系列] - 第499篇的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Mac 超详细Docker Desktop安装Elasticsearch(包括分词器插件)、Elasticsearch-head、Kibana

    1、使用Docker Desktop搜索elasticsearch,选择需要的版本号后可以直接点击Pull拉取,也可再终端中输入命令: 2、拉取下来后使用启动elasticsearch,这里选择使用命令启动 注意:这里需要提前在本机中创建elasticsearch.yml文件,/Users/zgy/Downloads/Java/es/elasticsearch.yml是我本机的路径,需要

    2024年02月04日
    浏览(41)
  • Docker安装ElasticSearch、Kibana、IK分词器以及设置ES账户密码

    版本声明: 系统 :CentOS 7.9(云服务器) ES版本 :7.6.1 Kibana :7.6.1 Ik分析器版本 :7.6.1 1、拉取镜像 2、创建挂载目录 设置所有用户读写执行权限 : sudo chmod -R 777 /docker_config/elasticsearch/ 3、创建elasticsearch.yml 配置文件 4、创建容器 参数说明 : -p 端口映射 -e discovery.type=single

    2023年04月09日
    浏览(65)
  • elasticsearch基础6——head插件安装和web页面查询操作使用、ik分词器

    插件是用户以自定义方式增强es功能的一种方法,分两类,核心插件和社区贡献插件。 插件太多,只需要熟悉插件的安装流程即可,根据项目需要再自行安装。 核心插件: 核心插件属于es项目,插件的版本号始终与es安装包的版本号相同,这些插件由es团队维护。 项目地址

    2024年02月14日
    浏览(45)
  • ElasticSearch的使用,安装ik分词器,自定义词库,SpringBoot整合ES(增、删、改、查)

    保存一个数据,保存在哪个索引的哪个类型下,指定用哪个唯一标识(相当于,保存一个数据,保存在那个数据库中的哪个表中,指定主键ID) 例:PUT customer/external/1;在customer索引下的external类型下保存1号数据name为John Doe的数据 POST和PUT都可以新增数据 注意: POST 新增。如果

    2023年04月25日
    浏览(46)
  • ElasticSearch篇——认识、安装和使用IK分词器插件,一篇文章带你彻底拿下!

    一、什么是IK分词器 所谓分词,即把一段中文或者别的划分成一个个的,我们在搜索时会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配的操作,默认的中文分词器是将每一个字看成一个词,比如“我爱中国”会被分成“我”、

    2024年02月03日
    浏览(38)
  • Linux下安装ElasticSearch-analysis-ik中文分词器插件,以及可能出现的异常处理

            注意:安装可以采用在线方式、离线方式,但是不建议在线安装,速度超级慢,本文只介绍离线安装方式                 下载地址:https://github.com/medcl/elasticsearch-analysis-ik                 切记选择版本需要跟ElasticSearch保持一致,否则可能会出现一些未知的异

    2024年02月07日
    浏览(62)
  • Elasticsearch7.15.2 安装ik中文分词器后启动ES服务报错的解决办法

    下载elasticsearch ik中文分词器,在elasticsearch安装目录下的plugins文件夹下创建名为ik的文件夹,将下载的ik中文分词器解压缩到新建的ik文件夹下,再次运行 ./bin/elasticsearch启动ES服务时出现以下错误: Exception in thread \\\"main\\\" java.nio.file.NotDirectoryException: /Users/amelia/work/elasticsearch-7.1

    2024年02月12日
    浏览(56)
  • ElasticSearch插件es-head安装及使用

    es-head需要nodejs环境编译,先看看机器中是否已经有nodejs环境,如果没有的话我们先要安装nodejs环境: nodjs官网:https://nodejs.org/en/download/ 这里下载的新版本 v12.18.1 1.1 测试安装是否成功 自此,需要的环境已准备完毕,下面开始安装es-head插件。 可使用git命令在线下载,或者下

    2023年04月08日
    浏览(45)
  • Linux下安装Elasticsearch以及ES-head插件

    由于Elasticsearch客户端版本和ElasticSearch版本有对应关系,所以建议安装之前先考虑安装哪个版本的ElasticSearch。 ElasticSearch、Spring Data Elasticsearch、SpringBoot、Spring版本对应关系 安装过程如下 上传Elasticsearch到服务器的/usr/loca/目录下,解压文件 修改elasticsearch.yml配置文件 elasticse

    2024年02月04日
    浏览(38)
  • Elasticsearch专栏-5.es基本用法-分词查询

    所谓分词,就是把一段语句,分割成一个个单词的过程。比如\\\"717 Hendrickson Place\\\"短语,分词后就是三个单词,即717、hendrickson、place。注意,分词后的单词默认都是小写。 分词查询,指的就是查询时,把要查询的语句(字符串)先进行分词,然后拿分词后的单词去文档集合中比

    2024年01月16日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包