Python英文词频统计(哈姆雷特)程序示例

这篇具有很好参考价值的文章主要介绍了Python英文词频统计(哈姆雷特)程序示例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

今天继续给大家介绍Python相关知识,本文主要内容是Python英文词频统计程序示例,主要是对英文文本——《哈姆雷特》进行分词。

一、英文文本词频统计思路

想要对《哈姆雷特》进行英文单词词频统计,那么我们首先需要拿到《哈姆雷特》的原文,将之存储为本地的txt文档,然后使用Python打开该文件,读取里面的信息。
在读取《哈姆雷特》内容后,我们首先需要将文件内容进行预处理,比如删除文件中的特殊符号,以及对文件内容进行全部小写的归一化操作等等。除此之外,我们还需要删除文档中所有的标点符号。之后,我们可以将文档使用split()函数,根据空格进行分隔,形成一个列表。
之后,我们逐个取出列表中的元素,然后统计列表中单词的个数。为了进行词频统计,我们需要创建一个字典变量,以单词为键,以统计出的单词个数为值,在遍历列表时不断更新该字典,就可以最终得到一个含有所有《哈姆雷特》内容单词词频的字典了。
最后,我们按照该字典转化为一个新的列表,就可以对值的大小对该字典进行排序,得到《哈姆雷特》词频从大到小的顺序了。

二、英文文本词频统计程序编写

根据上述思路,我们可以来编写英文文本词频统计程序了。
打开文件及读取文件内容程序代码如下所示:

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()

对文件内容进行预处理代码如下所示:

Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")

对文件单词进行统计代码如下所示:

counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1

对字典生成新的列表,并进行排序,代码如下所示:

sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)

筛选出单词出现频率最高的10个单词,并进行输出,代码如下所示:

for i in range(10):
    word,count=sequence[i]
    print("单词{}在Hamlet中出现次数为第{},出现了{}次".format(word,i+1,count))

最终代码如下所示:

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()
Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")
words=Hamlet.split()
counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1
sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
    word,count=sequence[i]
    print("单词{}在Hamlet中出现次数为第{},出现了{}次".format(word,i+1,count))

三、程序执行结果展示

运行上述程序,我们最终得到结果如下所示:
Python英文词频统计(哈姆雷特)程序示例
从上图可以看出,我们成功统计出了在《哈姆雷特》中出现次数最多的10个单词。
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200文章来源地址https://www.toymoban.com/news/detail-441660.html

到了这里,关于Python英文词频统计(哈姆雷特)程序示例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python使用jieba分词,词频统计,基本使用

    python采用第三方库进行中文分词,本文章只是记录文章。 1.需要下载第三方库jieba:                 cmd: pip install jieba 2.为了方便测试,在同级目录下,准备一个txt格式文件,文件名随意,这里我也是随便取的:                 文件路径可以是绝对路径,也可以是相对路

    2024年02月07日
    浏览(43)
  • 统计文本词频的几种方法(Python)

    目录 1. 单句的词频统计 2. 文章的词频统计 方法一:运用集合去重方法 方法二:运用字典统计 方法三:使用计数器 词频统计是自然语言处理的基本任务,针对一段句子、一篇文章或一组文章,统计文章中每个单词出现的次数,在此基础上发现文章的主题词、热词。 思路:首

    2024年02月04日
    浏览(43)
  • Python统计中文词频的四种方法

    统计中文词频是Python考试中常见的操作,由于考察内容较多,因此比较麻烦,那么有没有好的方法来实现呢?今天,我们总结了四种常见的中文词频统计方法,并列出代码,供大家学习参考。 中文词频统计主要是通过open()打开文本,然后read()方法读取后,采用结巴分词(jieb

    2024年02月11日
    浏览(49)
  • 《大数据系统与编程》MapReduce程序实现词频统计实验报告

    MapReduce程序实现词频统计            实验目的 1) 理解Hadoop中MapReduce模块的处理逻辑; 2)熟悉MapReduce编程; 实验平台 操作系统:Linux 工具:Eclipse或者Intellij Idea等Java IDE 实验内容 1) 在电脑上新建文件夹input,并input文件夹中创建三个文本文件:file1.txt,file2.txt,file3.tx

    2024年02月09日
    浏览(39)
  • Python读取Word统计词频输出到Excel

    1.安装依赖的包 ``` \\\"# 读取docxn\\\",     \\\"!pip install python-docxn\\\",     \\\"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docxn\\\",     \\\"# 中英文分词n\\\",     \\\"!pip install jieban\\\",     \\\"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieban\\\",     \\\"# 输出到exceln\\\",     \\\"!pip install pandas\\\"     \\\"!pip

    2024年02月13日
    浏览(44)
  • 使用python统计《三国演义》人物词频,看看罗贯中笔下谁的出场次数最多

    “滚滚长江东逝水,浪花淘尽英雄”。近来读《三国演义》,忽然想看看到底哪位英雄在书中提到的最多,于是就想用分词算法实现一下。 网上也确实有相关的案例,作为参考,自己又重写并优化了一遍。 思路 下载《三国演义》txt文档 使用jieba分词算法对文档进行分词处理

    2024年02月06日
    浏览(38)
  • python处理Excel Pandas xlwings numpy, jupyter,docx,jieba 词频统计 flash

    顺序不变,是可以的 如果李四和王五两行换一下,就不对了, 结果 pandas的nlargest(n,“排序的列”),只能求最大N个值 同比 df[‘昨日’] = df[“销售金额”].shift() shift() 会把销售金额放入昨日 python 在网页上显示Excel Excel 修改数据,网页只有刷新就可以了。 python 制作网页查询

    2024年02月10日
    浏览(47)
  • [Python3]编写程序,对输入的英文字符串中各字母出现的次数进行统计(不区分大写字母和小写字母),统计结果使用字典存放。例如,字符串“I have 2 ideas.“的统计结果为......

    编写程序,对输入的英文字符串中各字母出现的次数进行统计(不区分大写字母和小写字母),统计结果使用字典存放。例如,字符串\\\"I have 2 ideas.\\\"的统计结果为{\\\'i\\\':2, \\\'h\\\':1,\\\'a\\\':2, \\\'v\\\':1,\\\'e\\\':2, \\\'d\\\':1, \\\'s\\\':1}。注:用户输入的字符串中可能包含字母以外的其他字符。 输入格式: 输入一个英

    2024年02月04日
    浏览(65)
  • 5.1统计英文文件中的单词数python

     本关任务:编写一个能统计文件中单词数量的小程序,用replace替换文本内的标点 代码如下: ( 整体思路,先将文本中的标点符号用空格替换,然后用空格分隔单词,最后用len() 统计文本中单词的数量 ) 相关知识 为了完成本关任务,你需要掌握: 1.获取文件内容 2.字符

    2024年02月09日
    浏览(44)
  • MapReduce实现词频统计

    1.词频统计任务要求 准备两个txt文件分别为wordfile1.txt和wordfile2.txt,内容如下: 2.在Eclipse中创建项目 我的eclipse在usr/local/eclipse目录下,使用如下命令启动eclipse 创建一个java工程命名为WordCount,点击next加载jar包 选中Libraries点击Add External JARS加载jar包 为了编写一个MapReduce程序,

    2023年04月21日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包