Python统计词频的几种方法

1年前作者：西西弗斯推石头分类：Toy博客阅读(10)违法举报

这篇具有很好参考价值的文章主要介绍了Python统计词频的几种方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文介绍python统计词频的几种方法，供大家参考

目录

方法一：运用集合去重方法

方法二：运用字典统计

方法三：使用计数器

方法一：运用集合去重方法

def word_count1(words,n):
    word_list = []
    for word in set(words):
        num = words.counts(word)
        word_list.append([word,num])
        word_list.sort(key=lambda x:x[1], reverse=True)
    for i in range(n):
        word, count = word_list[i]
        print('{0:<15}{1:>5}'.format(word, count))

说明：运用集合对文本字符串列表去重，这样统计词汇不会重复，运用列表的counts方法统计频数，将每个词汇和其出现的次数打包成一个列表加入到word_list中，运用列表的sort方法排序，大功告成。文章来源地址https://www.toymoban.com/news/detail-538403.html

方法二：运用字典统计

def word_count2(words,n):
    counts = {}
    for word in words:
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word, 0) + 1
    items = list(counts.items())
    items.sort(key=lambda x:x[1], reverse=True)
    for i in range(n):
        word, count = items[i]
        print("{0:<15}{1:>5}".format(word, count))

方法三：使用计数器

def word_count3(words,n):
    from collections import Counter
    counts = Counter(words)
    for ch in "":  # 删除一些不需要统计的元素
        del counts[ch]
    for word, count in counts.most_common(n):  # 已经按数量大小排好了
        print("{0:<15}{1:>5}".format(word, count))

到了这里，关于Python统计词频的几种方法的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Python安装库的几种方法（使用Pycharm几种方法）
1.我的Pycharm已经改成中文格式了首先在Pycharm中进行安装库进入Python解释器中。里面搜素需要的库，可能速度很慢，有的库没有，可以采用别的方法。 2. cmd安装库文件 Windows+R进入CMD命令下。直接输入 pip install *** 就可以了就是自动安装需要的库。 3.直接使用别人已经安装好
2024年02月13日
浏览(38)
python字典取值的几种方法
Python 字典(dictionary)是一种可变容器模型，可以存储任意数量的任意类型的数据。字典中的每个元素由一个键和一个值组成，键和值之间用冒号分隔。字典通常用于存储键值对的数据，例如在数据库中存储记录。以下是 Python 字典取值的几种方法及其代码演示：方法
2023年04月26日
浏览(8)
python下载包的几种方法
有时候下载包总是报错，各种各样的错误。参考了很多很多，最终想记下一些。按照从易到繁的顺序。最方便的就是通过pycharm编译器，点击加号搜索包。然后是用anaconda prompt使用命令 pip install [-i 镜像网址] 包名，方括号可有可无，看下载速度或者是否报错。接着就是跑到
2024年02月15日
浏览(10)
Spark大数据处理学习笔记（2.4）IDEA开发词频统计项目
该文章主要为完成实训任务，详细实现过程及结果见【http://t.csdn.cn/0qE1L】从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html 安装在默认位置安装完毕在命令行窗口查看Scala版本（必须要配置环境变量）启动HDFS服务启动Spark集群在master虚拟机上创建单词文件
2024年02月08日
浏览(17)
文本分析-使用Python做词频统计分析
🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 前言前面我们已经介绍了文本分析中的中文分词和去除停用词，这篇文章将详细介绍分词后
2024年02月10日
浏览(9)
python使用jieba分词，词频统计，基本使用
python采用第三方库进行中文分词，本文章只是记录文章。 1.需要下载第三方库jieba： cmd: pip install jieba 2.为了方便测试，在同级目录下，准备一个txt格式文件，文件名随意，这里我也是随便取的：文件路径可以是绝对路径，也可以是相对路
2024年02月07日
浏览(12)
Python英文词频统计（哈姆雷特）程序示例
今天继续给大家介绍Python相关知识，本文主要内容是Python英文词频统计程序示例，主要是对英文文本——《哈姆雷特》进行分词。想要对《哈姆雷特》进行英文单词词频统计，那么我们首先需要拿到《哈姆雷特》的原文，将之存储为本地的txt文档，然后使用Python打开该文件，
2024年02月04日
浏览(8)
python 忽略警告（warning）的几种方法
不需要import warning就可以执行这种方法的优点是可以选择特定的语句隐藏警告。
2024年02月12日
浏览(11)
Python 四则运算的几种方法？
Python的四则运算主要有以下几种方法： 1、使用基本算术运算符： Python支持基本的算术运算符，包括加(+), 减(-), 乘(*), 除(/) 和求模运算符(%), 可以用于数值类型的数据，例如整数(int)、浮点数(float)等。例如： 2、使用math模块中的函数： Python的标准库中提供了一个math模块，其
2024年03月21日
浏览(9)
python 判断是否汉字的几种方法
1. 使用Python内置的ord() ord()函数将字符转换为Unicode编码，然后判断其范围是否在汉字的范围内：示例代码： 2. 使用Python内置的unicodedata库：使用Python内置的unicodedata库可以用来判断一个字符是否为汉字示例代码： 3. 使用正则表达式可以使用正则表达式来判断一个字符是否为
2024年02月12日
浏览(7)