【Python篇】python库讲解(wordcloud | jieba)

这篇具有很好参考价值的文章主要介绍了【Python篇】python库讲解(wordcloud | jieba)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【Python篇】python库讲解(wordcloud | jieba),Python基础,python,开发语言

🍔jieba库

jieba库是一个流行的中文分词工具,它基于统计算法和词频字典,能够将连续的汉字序列切割成有意义的词语。下面是对jieba库的简要理论说明:

  1. 分词原理:jieba库使用了基于前缀词典的最大匹配算法来进行中文分词。该算法从文本的开头开始,根据词典中的词语长度依次匹配文本,选择最长的匹配词语作为分词结果,然后继续在未匹配部分进行匹配,直到整个文本被分词完毕。
  2. 词典和词频:jieba库内置了一个词典,其中包含了常见的词语和词频信息。词典中的词语按照词频从高到低排列,以保证在分词时优先选择常见的词语。
  3. 分词模式:jieba库提供了三种分词模式:
    精确模式:尽可能地将文本切分为最精确的词语。
    全模式:将文本中所有可能的词语都切分出来,可能会产生冗余的词语。
    搜索引擎模式:在精确模式的基础上,对长词再进行切分,增加词语的召回率。
  4. 用户自定义词典:jieba库允许用户根据需要添加自定义词典,这样可以解决一些特定领域或专业术语的分词问题。用户自定义词典可以手动添加,也可以通过文本文件导入。
  5. 去除停用词:jieba库提供了停用词功能,可以过滤掉一些常见的无意义词语,如“的”、“是”等。用户可以根据需求自定义停用词列表。
  6. 并行分词:jieba库支持多线程并行分词,能够提高分词速度。

jieba库具有简单易用、分词效果良好等特点,广泛应用于中文文本处理、自然语言处理和机器学习等领域。通过使用jieba库,可以方便地进行中文文本的分词处理。

import jieba
import wordcloud
f = open("E:\\word.txt", "r", encoding="utf-8")

t=f.read()
f.close()
ls=jieba.lcut(t)

txt="".join(ls)
w = wordcloud.WordCloud(width=1000, height=700, background_color="white")
w.generate(txt)
w.to_file("E:\\a.png")

🍔wordcloud库

from wordcloud import WordCloud
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba

# 打开文本
text = open("a.txt", encoding="utf-8").read()
# 中文分词
text = ' '.join(jieba.cut(text))   # 利用jieba进行分词形成列表,将列表里面的词用空格分开并拼成长字符串。

#使用蒙版生成词云
mask = np.array(Image.open("ikun.png"))
# 生成对象
wc = WordCloud(mask = mask,font_path="SimHei.ttf", width=800, height=600, mode="RGBA", background_color=None).generate(text)

# 显示词云
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")     #关闭坐标轴
plt.show()

# 保存到文件
wc.to_file("2.2wordcloud2.png")


🌹解释

这段代码使用了Python的wordcloud库来生成词云图,并结合了jieba库进行中文分词,同时使用了PIL、numpy和matplotlib.pyplot等库进行图像处理和展示。

代码的主要步骤如下:

1.导入必要的库:

from wordcloud import WordCloud
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba

2.打开文本文件并进行中文分词:

text = open("a.txt", encoding="utf-8").read()
text = ' '.join(jieba.cut(text))

这里通过open函数打开名为"a.txt"的文本文件,并使用utf-8编码读取其中的内容。然后使用jieba库对文本进行中文分词,将分词结果拼接成一个空格分隔的长字符串。

3.使用蒙版生成词云:

mask = np.array(Image.open("ikun.png"))

这里通过PIL库的Image模块打开名为"ikun.png"的图像文件,并将其转换为numpy数组作为词云的蒙版。
4.生成词云对象:

wc = WordCloud(mask=mask, font_path="SimHei.ttf", width=800, height=600, mode="RGBA", background_color=None).generate(text)

这里通过WordCloud类创建一个词云对象,传入参数包括蒙版(mask)、字体路径(font_path)、宽度(width)、高度(height)、模式(mode)、背景颜色(background_color)和分词后的文本(text)。
5.显示词云图:

plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.show()

这里使用matplotlib.pyplot库的imshow函数来显示词云图,interpolation参数指定插值方法,axis函数关闭坐标轴,最后调用show函数展示图像。

6.保存词云图到文件:

wc.to_file("2.2wordcloud2.png")

这里使用词云对象的to_file方法将生成的词云图保存到名为"2.2wordcloud2.png"的文件中。

在技术的道路上,我们不断探索、不断前行,不断面对挑战、不断突破自我。科技的发展改变着世界,而我们作为技术人员,也在这个过程中书写着自己的篇章。让我们携手并进,共同努力,开创美好的未来!愿我们在科技的征途上不断奋进,创造出更加美好、更加智能的明天!

【Python篇】python库讲解(wordcloud | jieba),Python基础,python,开发语言文章来源地址https://www.toymoban.com/news/detail-765530.html

到了这里,关于【Python篇】python库讲解(wordcloud | jieba)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自动化理论基础(2)—开发语言之Python

    一、知识汇总 掌握 Python 编程语言需要具备一定的基础知识和技能,特别是对于从事自动化测试等领域的工程师。以下是掌握 Python 的一些关键方面: 基本语法: 理解 Python 的基本语法,包括变量、数据类型、运算符、条件语句、循环语句等。 数据结构: 熟悉并能够使用

    2024年01月18日
    浏览(61)
  • 【python 的各种模块】(8) 在python使用matplotlib和wordcloud库来画wordcloud词云图

    目录 目标:用python画出,网上流行的wordcloud词云图 1 准备工作 1.1环境准备 1.1.1安装步骤 1.2 资源准备 1.2.1  文本文件内容如下 1.2.2 图片资源 2 代码测试 2.1 第一版代码和效果 2.1.1 代码和效果 2.1.2 一般plt里解决中文乱码问题 2.1.3 wordcloud的中文显示方框解决办法 2.2 修改后的代

    2024年02月03日
    浏览(74)
  • python安装wordcloud包报错:No module named ‘wordcloud‘

    直接在cmd使用pip install wordcloud进行安装后,在jupyter notebook中导入wordcloud包会报错 发现是因为没有安装在anaconda的路径里 解决方法:打开anaconda prompt进行pip install wordcloud,安装完成后可以在jupyter环境中成功导入 去年这时候安过一次wordcloud包,当时好像也有这个问题,没有及时

    2024年02月11日
    浏览(49)
  • python-wordcloud词云

    wordcloud以空格为分隔符号,来将文本分隔成单词 PIL pillow模块 这行代码使用imageio库读取一个名为“image.png”的图像文件,并将图像作为numpy数组存储在变量“img”中 dir可以查看一些东西 font_path :字体文件的路径 - - - 默认None width , height :词云生成图片的宽高 - - - 默认宽

    2024年02月09日
    浏览(39)
  • python--wordcloud库的使用

    目录 1.wordcloud库简介 2.wordcloud的基本使用 3.wordcloud使用实例(在图形中生成词云) 1.词云库简介 wordcloud库是python中的一个第三方库,wordcloud直译过来是“词云” 词云:以词语为基本单位,更加直观和艺术的展示文本。 另外词云库需要先自行安装 安装方法: 命令行安装:c

    2024年02月09日
    浏览(48)
  • wordcloud Python中的词云库

    Python中的词云库是一个非常流行的文本可视化工具,可以将文本中的以词云形式呈现。本篇文章将详细讲解Python中的词云库的使用和API以及代码注释。 安装词云库 安装词云库的方式很简单,只需要在命令行中使用pip命令即可。具体命令如下所示: 导入词云库 导入词云

    2024年02月07日
    浏览(40)
  • python词云 wordcloud库详细使用教程

    “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,出现频率较高的单词或词语则会以较大的形式呈现出来,而频

    2024年02月08日
    浏览(59)
  • Python安装词云库wordcloud一文搞懂

    使用pip install wordcloud命令安装词云时,失败概率极大,因此词云库一般使用whl文件进行安装。 whl安装词云库步骤如下(同样适合安装其他whl文件的库) 1.下载wordcloud的whl文件 下载地址为:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 2.选择合适的whl版本(重点) 很多人不知道下载哪个版

    2024年02月05日
    浏览(36)
  • Python基础(20)——Python函数讲解二

    变量作用域 多函数程序执行流程 函数的返回值 函数的参数 拆包和交换两个变量的值 引用 可变和不可变类型 变量作用域指的是变量生效的范围,主要分为两类: 局部变量 和 全局变量 。 局部变量 所谓局部变量是定义在函数体内部的变量,即只在函数体内部生效。 变量a是

    2024年02月09日
    浏览(38)
  • python实战讲解之python开发游戏之战讲解

    ·· 注: 作者提醒: 详细讲解,请认真   在Python开发游戏时,你需要掌握以下内容:   熟悉Python的基本语法,如变量、数据类型、运算符、条件语句、循环语句等。       了解面向对象编程的概念,如类、对象、继承、封装、多态等。学会创建和使用类来组织和管理游戏元

    2024年02月05日
    浏览(98)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包