Python进行文本处理分析与词云生成——以三国演义为例(含代码讲解)

这篇具有很好参考价值的文章主要介绍了Python进行文本处理分析与词云生成——以三国演义为例(含代码讲解)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前景:        

        在Python中处理文本数据是一种常见的任务,这需要使用到多种字符串操作和数据结构。本文将详细解读如何调用jieba、wordcloud以及matplotlib这些库进行文本处理分析与词云制作。

在pycharm中下载并安装库

        在我们导入所需要的库之前我们需要先在pycharm中下载并安装库,步骤如下:

  1. 在PyCharm的顶部的菜单中选择 "File"(文件) -> "Settings"(设计)(在Mac上是 "PyCharm" -> "Preferences")。

  2. 在设置窗口中,选择 "Project: [Your Project Name]" -> "Python Interpreter"。

  3. 在 Python Interpreter 页面的左上角,你会看到一个加号(+)按钮,点击它。

  4. 在弹出的窗口中,你可以搜索要安装的库的名称,然后选择并点击 "Install Package"。

  5. 等待安装完成后,你就可以在您的项目中使用这个库了。

这样,您就可以在PyCharm中方便地下载并安装您需要的库了

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

操作步骤

        1.导入库

        2. 打开并读取文件   

        3. 构建停用词表

        4. 分词

        5. 统计词频

        6.删除无意义的停用词

        7. 查看高频词

        8.提取人名和出场次数

        9. 构建词云图

        10. 绘制词云图

具体代码实施

        第一步导入库:我们首先使用import函数导入我们后面文本分析和制作词云所需要使用的库,包括jieba(中文分词第三方库wordcloud(词云生成库matplotlib(绘图库。这些库分别用于中文分词、词云生成和数据可视化。

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第二部打开并读取文件:我们使用open函数打开了一个文本文件,并使用read函数读取了文件内容。这样我们就可以对文件中的文本进行分析。

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第三步构建停用词表:我们创建了一个停用词表,用于过滤掉一些无意义的词语,例如人名、地名等。这有助于提高文本分析的准确性。三国演义的停用词表如下

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第四步分词:使用jieba库进行中文分词,将文本内容进行分词处理,为后续的词频统计做准备

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第五步统计词频:我们首先初始化一个空字典counts然后再使用get函数对分词后的结果进行词频统计,得到每个词语出现的次数,将名字放入字典的键中,将出现的次数放在字典的值中。要注意的是在三国演义中有许多人物有不同的叫法。列如:关公,云长都是指关羽,所以我们需要循环遍历加if语句将其变为同一个名字。

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第六步删除无意义的停用词:减少后面我们遍历的内容,减少代码运行时间,再将我们刚刚所得到的字典列表化,方便我们后边使用sort()函数对其进行降序排序。("sort()" 函数是 Python 中的一个内置函数,用于对列表(list)进行排序。该函数会修改原始列表,将其元素按照升序排列。如果需要降序排列,则可以设置 reverse=True 参数。)

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第七步查看高频词:这一步我们使用for循环统计并输出了词频统计结果中出现次数最多的前20个词语,以便对文本内容有一个整体的了解("format" 函数通常是在各种编程语言中用来格式化字符串的函数。它可以将变量或表达式的值插入到字符串中,并按照特定的格式显示。)

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第八步提取人名和次数:在这一步中,我们定义一个空列表name和times分别用来存储人物的名称和出场次数,然后使用for循环将降序的名字和出现的次数分别赋值给word和count,并用append()函数将其分别赋值给列表name和times,使用wordcloud库构建了词云对象,并将高频词语及其出现次数用于生成词云图。

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第九步构建词云图:我们使用wordcloud库构建了词云对象w,并设置词云属性:

        1.font_path='C:\Windows\Fonts\simhei.ttf': 这行代码指定了字体路径,使用的是宋体字体(simhei)。这通常用于确保中文能够正确显示,因为默认的字体可能不支持中文。

        2.background_color="white": 设置词云的背景颜色为白色。

        3.max_words=1000: 在生成的词云中,最多显示1000个词汇。

        4.max_font_size=100: 设置词云中字体的最大大小为100。

        5.random_state=50: 设置随机数生成器的种子为50,确保每次生成的词云颜色配置是一样的

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

        第十步绘制词云:定义一个txt 并赋值 " ".join(name): 将 name 列表中的所有元素连接成一个字符串,元素之间用空格分隔。(假设 name 是一个包含多个词汇的列表,这个操作就是将这些词汇连接成一个句子)
        w.generate(txt): 使用上面生成的字符串 txt(从 name 转换得来)来生成词云。
显示和保存词云:

        plt.imshow(w): 使用 matplotlib 显示生成的词云。
        plt.axis("off"): 关闭坐标轴。
        plt.show(): 显示图像。
        w.to_file("ciyun.png"): 将生成的词云保存为名为 "ciyun.png" 的PNG图像文件。

参考压缩包中的词云案例,根据提供的素材,制作三国演义第一章内容的带蒙版的词云(,Python,爬虫,信息可视化,数据分析,数据挖掘

到此我们的词云就制作完成了,感谢你的阅读!!!文章来源地址https://www.toymoban.com/news/detail-766151.html

到了这里,关于Python进行文本处理分析与词云生成——以三国演义为例(含代码讲解)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python进行文本分析

    Python 有许多强大的库和工具可以用于文本分析。下面是一个简单的文本分析流程,使用一些常见的 Python 库和工具: 读取文本数据:使用 Python 的内置函数 open() 或第三方库如 Pandas 读取文本文件,例如 清洗文本数据:使用 Python 的字符串操作和正则表达式库,清洗文本数据,

    2024年02月16日
    浏览(31)
  • 自然语言处理入门:使用Python和NLTK进行文本预处理

    文章标题:自然语言处理入门:使用Python和NLTK进行文本预处理 简介 自然语言处理(NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、分析和生成人类语言。本文将介绍如何使用Python编程语言和NLTK(Natural Language Toolkit)库进行文本预处理,为后续的文本分析

    2024年02月19日
    浏览(55)
  • 通过Python的wordcloud库将单词生成词云(心形形状)

    大家好,我是空空star,本篇给大家分享一下通过Python的wordcloud库将单词生成 词云(心形形状) 。 Python的wordcloud库是一个用于生成词云的Python包。它可以将一段文本中出现频率高的单词按其出现频率大小以及颜色深浅排列成一个词云图形,从而更好地展示文本中的信息。 使用

    2024年02月05日
    浏览(40)
  • Python 文本处理和语义分析2 使用m3e对文本向量化

    向量化将会是下一阶段演进的目标。 在过去的实践中,向量或者矩阵其实是最贴近工具端的。 以sklearn为例,虽然原始数据可能还是自然语言,但是在最终执行 fit或者predict之前,数据一般都转为了矩阵形态(numpy)。也就是说,在pandas(原始数据)和最终结果(predict result)之间,是

    2024年02月21日
    浏览(39)
  • Python生成圣诞节词云-代码案例剖析【第17篇—python圣诞节系列】

    这段代码使用了jieba进行中文分词,结合stylecloud库生成了一个基于指定配色方案的圣诞主题词云图。以下是对代码的解释: import jieba :导入中文分词库jieba。 import re :导入正则表达式库。 from stylecloud import gen_stylecloud :导入stylecloud库中的生成词云图的函数。 from PIL import

    2024年02月04日
    浏览(43)
  • 5.Python数据分析项目之文本分类-自然语言处理

    预测类数据分析项目 流程 具体操作 基本查看 查看缺失值(可以用直接查看方式isnull、图像查看方式查看缺失值missingno)、查看数值类型特征与非数值类型特征、一次性绘制所有特征的分布图像 预处理 缺失值处理(填充)拆分数据(获取有需要的值) 、统一数据格式、特征

    2024年02月03日
    浏览(68)
  • python绘制三国演义词云图

    1.jieba的安装与使用 Python2.X版 全自动安装: easy_install jieba  或者  pip install jieba 半自动安装:先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py install 手动安装:将jieba目录放置于当前目录或者site-packages目录 通过import jieba 来引用 Python3.X版 目前master分支是只支持P

    2024年02月04日
    浏览(39)
  • 自然语言处理(NLP)一直是人工智能领域的一项重要任务,其涉及到从文本中提取特征、组织数据、训练模型等诸多复杂任务。如何有效地进行文本理解和分析?

    作者:禅与计算机程序设计艺术 自然语言处理(NLP)一直是人工智能领域的一项重要任务,其涉及到从文本中提取特征、组织数据、训练模型等诸多复杂任务。如何有效地进行文本理解和分析,成为一个重要研究课题。近年来,随着计算能力的提升和硬件性能的增强,大规模

    2024年02月09日
    浏览(70)
  • 利用python语言分析小说的词频、词性、词云、小说人物出场次数排序以及小说人物关系

    bird.png:云底图片 sgyy.txt:三国演义原文 tingyong.txt:停用词文件 感谢观看!

    2024年02月11日
    浏览(44)
  • 使用Python和OpenCV进行图像处理和分析

    简介: 图像处理和分析是计算机视觉领域的重要组成部分。本文将介绍如何使用Python编程语言和OpenCV库进行图像处理和分析。我们将涵盖图像读取、显示、滤波、边缘检测和图像分割等常见的图像处理操作,并提供相应的代码示例。 安装OpenCV: 首先,我们需要安装OpenCV库。

    2024年02月12日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包