Kibana 8.X 如何做出靠谱的词云图?

这篇具有很好参考价值的文章主要介绍了Kibana 8.X 如何做出靠谱的词云图?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、问题产生

Kibana 实现一个词云效果并不复杂,甚至可以说非常简单。

大致可以分成如下几个步骤:

  • 步骤1:已有索引待做词云的 text 类型字段设置:fielddata 为true,以便基于分词结果聚合操作。

  • 步骤2:在 8.X 的 kibana 的 Data Views关联索引。

  • 步骤3:在dashboard控制面板选择 Aggregation Based 下的 Tag cloud,选择步骤1设定的字段,选择好时间范围,词云就可以生成。

以构造微博数据(假数据)为例,词云效果如下所示:

Kibana 8.X 如何做出靠谱的词云图?

问题来了!怎么那么多单字效果,有没有办法去掉,让词云效果相对靠谱可靠?

2、方案探讨

从目标出发思考,既然分词结果大局已定。把单字的分词全部删除掉不就可以了吗?于是有了方案一。

方案一:Kibana 控制面板过滤掉单字索引

Kibana 8.X 如何做出靠谱的词云图?

加上后,看看效果:

Kibana 8.X 如何做出靠谱的词云图?

并不乐观,因为我们的方案仅是将能看到的 Top 50 里的单字给去掉了。

新的 Top 50 单字仍然会出现。

也就是说:方案一仅“治疗表明”,不能由表及里。

这个问题曾困惑我很久,我一度认为,把单字穷举出来,全部删掉即可。

后来,思来死去,发现思考问题方向不对,应该从“源头”解决问题。

于是,有了方案二。

2.2 方案二:分词阶段过滤掉单字词项

中文分词我们依然选择的 medcl 大佬开源的 IK 分词下的 ik_smart 粗粒度分词器。ik 中文分词插件支持两种分词效果:

其一:ik_max_word,细粒度分词。

其二:ik_smart, 粗粒度分词。

原有的分词已经构建完毕,如何基于已有成熟分词再构建新的分词器呢?

这时候,脑海里要对分词 analysis 的三部分组成要“门儿清”。

Kibana 8.X 如何做出靠谱的词云图?

我们的 tokenizer 已选定 ik_smart,不能修改。可动的只有:character filtertoken filter,而能实现仅保留 两个 或者两个以上分词的效果的需要借助:token filter 下的 length token filter 实现。

length token filter 的本质如其定义:

emoves tokens shorter or longer than specified character lengths. ”

中文释义为:“删除比指定字符长度更短或更长的标记”。

接下来,我们实战一把。

3、基于自定义分词实现靠谱词云效果

如前方案二所述,在分词处做“手脚”,能实现自主、可控的分词粒度。

3.1 步骤1:自定义分词

如下 DSL 实现了自定义索引。

在原有 ik_smart 分词器的基础上,添加了“bigger_than_2” 过滤器,实现了将小于2个字符的 分词项过滤掉的效果。

PUT weibo_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_smart_ext": {
          "tokenizer": "ik_smart",
          "filter": [
            "bigger_than_2"
          ]
        }
      },
      "filter": {
        "bigger_than_2": {
          "type": "length",
          "min": 2
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik_smart_ext",
        "fielddata": true
      },
      "insert_time": {
        "type": "date"
      }
    }
  }
}

3.2 步骤2:重新生成索引且reindex数据

POST _reindex
{
  "source": {"index": "weibo_index_20220901"},
  "dest": {"index": "weibo_index_20220904"}
}

3.3 步骤3:重新生成词云

Kibana 8.X 如何做出靠谱的词云图?

依然不是最完美的词云效果,但是,比未处理前已经好很多。

4、小结

解决问题的时候,多从源头思考,换一个思路,效果会好很多。

大家有任何 ElasticStack 相关技术问题都欢迎留言交流。

ElasticStack 视频不定期更新中:

  • B站:https://space.bilibili.com/471049389

  • 视频号:铭毅天下

推荐阅读

  1. 如何从0到1打磨一门 Elasticsearch 线上直播课?

  2. 重磅 | 死磕 Elasticsearch 方法论认知清单(2021年国庆更新版)

  3. 如何系统的学习 Elasticsearch ? 

  4. 你“寒”你的,我“暖”我的文章来源地址https://www.toymoban.com/news/detail-400002.html

到了这里,关于Kibana 8.X 如何做出靠谱的词云图?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 在 Web3 里如何寻找靠谱的创新路径——Solv V3 阶段性复盘(上)

    作者:Solv 核心团队 Solv V3 是 3 月 21 日发布的,到这周一整整三个星期。三周时间产生的实际交易额超过 6,000 万美元,预计在本月内能够破亿。而且从我们手上的 pipeline 来看,这个增长的势头还将持续下去。在几个月内,Solv V3 将产生数亿美元的实际交易量。 在 crypto 市场上

    2024年02月07日
    浏览(54)
  • python中的词云图

    wordcloud 是什么? 词云图,也叫文字云,是对文本中出现频率较高的“”予以视觉化的展现词云图过滤掉大量的低频低质的文本信息使得浏览者只要一眼扫过文本就可领略文本的主旨。 安装 怎么使用? 先导入,在创建一个wordcloud的实例化对象。 基本使用方法如下: 这

    2024年02月07日
    浏览(45)
  • 【译】靠谱的人必备六大品质

    原作:柯蒂斯·派克斯 引言:只有靠谱,才能赢得机会   靠谱是生命中最宝贵的商品之一。 我们都希望受到尊重。 它构成了人际交往的基础。 唯一的问题是,它来之不易。 你必须赢得它,而且一旦获得,你必须努力维持。 靠谱的人对此深有体会。 在寻求获得高度靠谱的过

    2024年02月21日
    浏览(81)
  • 蚂蚁爱购--靠谱的SpringBoot项目

    这是一个靠谱的SpringBoot项目实战,名字叫蚂蚁爱购。从零开发项目,视频加文档,十天就能学会开发JavaWeb项目。 教程路线是: 搭建环境 = 安装软件 = 创建项目 = 添加依赖和配置= 通过表生成代码= 编写Java代码 = 代码自测 = 前后端联调= 准备找工作。 学完即可成为合格的Jav

    2024年01月17日
    浏览(45)
  • 【Python】生成词云图太简单了|拿来就用能的词云图代码

    词云也叫文字云,是一种可视化的结果呈现,常用在爬虫数据分析中,原理就是统计文本中高频出现的词,过滤掉某些干扰词,将结果生成一张图片,直观的获取数据的重点信息。今天,我们一起来学习一下Python生成词云的常用库 「wordcloud」 。 wordcloud是第三方库,需要提前

    2024年02月08日
    浏览(40)
  • 使用Python绘制各种方法的词云图

     这样一张极其简单的词云图算是做好了,当然我们可以给它添加一个背景图片,例如下面这张图片,  主要需要添加的代码如下所示  除此之外,还有另外一个模块 stylecloud 绘制出来的词云图也是非常酷炫的,其中我们主要是用到下面这个函数  最后我们来看一下如何用

    2024年02月12日
    浏览(40)
  • 国内最靠谱的AI绘画平台,是他们

    很多大咖都说今年是人工智能元年,但我身边没那种咖位,不敢瞎说, 也没那种技术和知识沉淀,无法做全面而深入的研究。 由于平时对AI绘画感兴趣,所以也就只会玩AI绘画, 但在国内,要想畅快的玩AI绘画真的是太难了... 首先,如果你想玩开源的stable diffusion,那么基本

    2024年02月11日
    浏览(42)
  • IT培训有靠谱的机构吗,长什么样的?

    关于IT培训的问题,网上有一大波劝退的声音:现在的IT越来越卷,高校计算机专业毕业生每年那么多,作为小白转行的你竞争力又在哪里呢?而且去年互联网大厂那么多裁员,还有大幅度降薪等等,IT行业已经不吃香了,找不到工作,薪资又低…… 关于培训机构的问题,也有

    2023年04月21日
    浏览(42)
  • PyCharm安装教程和激活详细讲解(全网最快捷、最靠谱的方式)

    PyCharm软件是收费的,所以我们在使用的时候需要购买正版,我们学习当然想着下载个免费版本的。那怎么操作呢,下边说一下: 官方地址:PyCharm:JetBrains为专业开发者提供的Python IDE 一路下一步即可( 到选择文件路径时,自定义路径哦,默认是在C盘上安装的 ) JETBRA.IN CH

    2024年03月18日
    浏览(64)
  • 几种靠谱的企业大文件安全传输方式,最后一种绝了

    在数字化的浪潮中,企业的数据安全传输显得尤为关键。随着远程办公和云技术的普及,企业在保护敏感信息不被外泄方面面临着新的挑战。本文将探讨几种有效的企业数据安全传输方法,并着重阐述其中一种方法如何作为全面的解决方案,提供既高效又安全的数据传输服务

    2024年03月27日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包