Python统计词频的几种方法

这篇具有很好参考价值的文章主要介绍了Python统计词频的几种方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文介绍python统计词频的几种方法,供大家参考

目录

方法一:运用集合去重方法

方法二:运用字典统计

方法三:使用计数器

方法一:运用集合去重方法

def word_count1(words,n):
    word_list = []
    for word in set(words):
        num = words.counts(word)
        word_list.append([word,num])
        word_list.sort(key=lambda x:x[1], reverse=True)
    for i in range(n):
        word, count = word_list[i]
        print('{0:<15}{1:>5}'.format(word, count))

说明:运用集合对文本字符串列表去重,这样统计词汇不会重复,运用列表的counts方法统计频数,将每个词汇和其出现的次数打包成一个列表加入到word_list中,运用列表的sort方法排序,大功告成。文章来源地址https://www.toymoban.com/news/detail-538403.html

方法二:运用字典统计

def word_count2(words,n):
    counts = {}
    for word in words:
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word, 0) + 1
    items = list(counts.items())
    items.sort(key=lambda x:x[1], reverse=True)
    for i in range(n):
        word, count = items[i]
        print("{0:<15}{1:>5}".format(word, count))

方法三:使用计数器

def word_count3(words,n):
    from collections import Counter
    counts = Counter(words)
    for ch in "":  # 删除一些不需要统计的元素
        del counts[ch]
    for word, count in counts.most_common(n):  # 已经按数量大小排好了
        print("{0:<15}{1:>5}".format(word, count))

到了这里,关于Python统计词频的几种方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python安装库的几种方法(使用Pycharm几种方法)

    1.我的Pycharm已经改成中文格式了 首先在Pycharm中进行安装库 进入Python解释器中。 里面搜素需要的库,可能速度很慢,有的库没有,可以采用别的方法。 2. cmd安装库文件 Windows+R进入CMD命令下。 直接输入 pip install *** 就可以了 就是自动安装需要的库。 3.直接使用别人已经安装好

    2024年02月13日
    浏览(29)
  • python下载包的几种方法

    有时候下载包总是报错,各种各样的错误。参考了很多很多,最终想记下一些。按照从易到繁的顺序。 最方便的就是通过pycharm编译器,点击加号搜索包。 然后是用anaconda prompt使用命令 pip install [-i 镜像网址] 包名,方括号可有可无,看下载速度或者是否报错。 接着就是跑到

    2024年02月15日
    浏览(35)
  • python字典取值的几种方法

            Python 字典(dictionary)是一种可变容器模型,可以存储任意数量的任意类型的数据。字典中的每个元素由一个键和一个值组成,键和值之间用冒号分隔。字典通常用于存储键值对的数据,例如在数据库中存储记录。 以下是 Python 字典取值的几种方法及其代码演示: 方法

    2023年04月26日
    浏览(31)
  • Spark大数据处理学习笔记(2.4)IDEA开发词频统计项目

    该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/0qE1L】 从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html 安装在默认位置 安装完毕 在命令行窗口查看Scala版本(必须要配置环境变量) 启动HDFS服务 启动Spark集群 在master虚拟机上创建单词文件

    2024年02月08日
    浏览(49)
  • 文本分析-使用Python做词频统计分析

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 前言 前面我们已经介绍了文本分析中的中文分词和去除停用词,这篇文章将详细介绍分词后

    2024年02月10日
    浏览(32)
  • Python英文词频统计(哈姆雷特)程序示例

    今天继续给大家介绍Python相关知识,本文主要内容是Python英文词频统计程序示例,主要是对英文文本——《哈姆雷特》进行分词。 想要对《哈姆雷特》进行英文单词词频统计,那么我们首先需要拿到《哈姆雷特》的原文,将之存储为本地的txt文档,然后使用Python打开该文件,

    2024年02月04日
    浏览(58)
  • python使用jieba分词,词频统计,基本使用

    python采用第三方库进行中文分词,本文章只是记录文章。 1.需要下载第三方库jieba:                 cmd: pip install jieba 2.为了方便测试,在同级目录下,准备一个txt格式文件,文件名随意,这里我也是随便取的:                 文件路径可以是绝对路径,也可以是相对路

    2024年02月07日
    浏览(34)
  • python 判断是否汉字的几种方法

    1. 使用Python内置的ord() ord()函数将字符转换为Unicode编码,然后判断其范围是否在汉字的范围内: 示例代码: 2. 使用Python内置的unicodedata库: 使用Python内置的unicodedata库可以用来判断一个字符是否为汉字 示例代码: 3. 使用正则表达式 可以使用正则表达式来判断一个字符是否为

    2024年02月12日
    浏览(61)
  • python发送邮件的几种常用方法

    第一种是最常见的,smtp发送 第二种是用outlook发送的,这个大家借鉴使用 第三种是正文需要用到表格的,我在这里给大家一个示例,具体表格怎么改自行发挥

    2024年02月16日
    浏览(36)
  • Python脚本添加参数的几种方法

    用python添加参数都是用的input函数,不能添加默认值也不能输入help提示。 最近发现了2个更好用的库分享给大家。 这个使用很简单,就不过多描述了。 实际调用: argparse是python自带库,不用额外安装。 这个库定义参数麻烦,使用起来简单。 在cmd里执行python脚本 输入下面语句

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包