Python读取Word统计词频输出到Excel

9月前作者：牧文山分类：Toy博客阅读(42) 违法举报

这篇具有很好参考价值的文章主要介绍了Python读取Word统计词频输出到Excel。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.安装依赖的包

```
"# 读取docx\n",
"!pip install python-docx\n",
"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx\n",
"# 中英文分词\n",
"!pip install jieba\n",
"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba\n",
"# 输出到excel\n",
"!pip install pandas"
"!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas"
```

2.读取docx文件到一个大字符串

```python
import docx
from docx import Document
document = docx.Document("Python.docx")
content = " ".join([para.text for para in document.paragraphs])
```

3. 中文分词

```
import jieba

seg_list = jieba.cut(content,cut_all=False)
print(type(seg_list))

# 过滤标点符号，无意义的单个字
seg_list = [
word
for word in seg_list
if len(word) >1
]
print(seg_list[:30])
```

4.统计词频

```
from collections import Counter
counter = Counter(seg_list)
for key,count in list(counter.items())[:10]:
print(key,count)
```

5. 构造pandas并且排序

```
import pandas as pd
df = pd.DataFrame(list(counter.items()), columns = ['word','count'])
df.sort_values(by="count",ascending=False,inplace=True)
df.head()
```

将list转化为dict

```
a=['hello','world','1','2']
b= dict(zip(a[0::2],a[1::2]))
b
```
文章来源地址https://www.toymoban.com/news/detail-646866.html

到了这里，关于Python读取Word统计词频输出到Excel的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

python自动化操作：批量处理照片尺寸并输出到word文档中【第14篇—python-照片尺寸批量处理输出】

在当今数字化时代，照片处理和文档编辑是许多领域中不可或缺的任务。从个人创作到企业文档，人们经常需要快速而有效地处理大量照片，并将它们整合到文档中。Python作为一种强大而灵活的编程语言，为自动化这一过程提供了理想的平台。这篇文章将探讨如何使用Pytho

2024年02月05日
浏览(43)
python接口自动化之excel读取测试数据

一、当你拥有一个excel版的接口用例 excel中有用例名称、url、请求方式和请求参数二、获取excel的Url、请求方式和请求参数尊重原创，转载请注明出处，谢谢！！

2024年02月08日
浏览(42)
使用python进行字频统计和词频统计

读取给定的语料库，根据制表符’t’划分其文本与标签，将获得的文本仅保留汉字部分，并按字划分，保存在列表中，至少使用一种方法，统计所有汉字的出现次数，并按照从高到低的顺序排序；至少使用一种方法，统计所有字频，按照从高到低的顺序排序；至少使用一种

2024年02月06日
浏览(40)
【python+Excel】读取和存储测试数据完成接口自动化测试

http_request2.py用于发起http请求 do_excel2.py完成对excel中用例的读、写、统计 test_case2.xlsx存储测试用例补充知识：python用unittest+HTMLTestRunner+csv的框架测试并生成测试报告直接贴代码： csv文件格式：备注：使用python处理中文csv文件，并让execl正确显示中文（避免乱码）设施编码格

2024年04月13日
浏览(46)
怎么从休学证明中取出休学原因（python自动化办公，涉及word和excel）

本代码偏向处理高校教务处的工作休学或请假模板如下：需求说明：代码如下：重要知识点补充

2024年02月07日
浏览(56)
Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本

本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件，并提取所有文本的方法进行分享和使用总结。可以读取不同文件的库和方法当然不止下面分享的这些，本文的代码主要目标都是：方便提取文件中所有文本的实现方式。这些库的更多使用方法，请到官方文档中查

2024年02月13日
浏览(100)
Python自动化测试，Excel数据驱动读取 xlrd实战（超详细）

xlrd模块安装 xlrd常用方法 1、导入模块 import xlrd 2、打开文件 3、获取sheet 获取所有sheet名字：x1.sheet_names（）获取sheet数量：x1.nsheets 获取所有sheet对象：x1.sheets() 通过sheet名查找：x1.sheet_by_name(\\\"test”) 通过索引查找：x1.sheet_by_index(3) 输出：

2024年02月11日
浏览(48)
Python利用Excel读取和存储测试数据完成接口自动化教程

http_request2.py用于发起http请求 do_excel2.py完成对excel中用例的读、写、统计 test_case2.xlsx存储测试用例补充知识： python用unittest+HTMLTestRunner+csv的框架测试并生成测试报告直接贴代码： csv文件格式：备注：使用python处理中文csv文件，并让execl正确显示中文（避免

2024年01月20日
浏览(38)
90天玩转Python—11—基础知识篇：Python自动化操作Excel：读写、增删改查、分组统计全攻略

90天玩转Python—01—基础知识篇：C站最全Python标准库总结 90天玩转Python--02--基础知识篇：初识Python与PyCharm 90天玩转Python—03—基础知识篇：Python和PyCharm（语言特点、学习方法、工具安装） 90天玩转Python—04—基础知识篇：Python编程基础：标识符、保留字、注释、多行语句、p

2024年04月11日
浏览(41)
100天精通Python丨办公效率篇 —— 10、Python自动化操作 office-excel（读写、增删改查、分组统计）

2023年04月15日
浏览(83)