20230507使用python3批量转换DOCX文档为TXT

这篇具有很好参考价值的文章主要介绍了20230507使用python3批量转换DOCX文档为TXT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

20230507使用python3批量转换DOCX文档为TXT
2023/5/7 20:22

WIN10使用python3.11

# – coding: gbk –
import os
from pdf2docx import Converter
from win32com import client as wc
"""这里需要安转包pywin32com"""

# 读取pdf文件文本内容
def DocxToTxt(inputFinallyPath, outputFinallyPath):
    wordhandle = wc.Dispatch("Word.Application")
    wordhandle.Visible = 0  # 后台运行,不显示
    wordhandle.DisplayAlerts = 0  # 不警告
    doc = wordhandle.Documents.Open(inputFinallyPath)
    doc.SaveAs(outputFinallyPath, 4)  # txt=4, html=10, docx=16, pdf=17
    doc.Close


if __name__ == '__main__':

        # 输入路径
        inputPath = r'D:\pythonproject\pdf_to_txt\input'
        #输出路径,最好采用绝对路径
        outputPath = r'D:\pythonproject\pdf_to_txt\output'
      
        # 将文件夹的文件列举出来
        pdfList = os.listdir(inputPath)
        # 批量读取存储
        pdf_num = 1
        for li in pdfList:
            print(li)
            inputFinallyPath = inputPath + '/' + li
            li = li.replace('.docx', '.txt')
            outputFinallyPath = outputPath + '/' + li
            DocxToTxt(inputFinallyPath, outputFinallyPath)
            print('第 %d 篇docx已转换为txt' % pdf_num)
            pdf_num = pdf_num + 1
        print('共计%d篇docx文章已完全转换为txt' % (pdf_num-1))

python docx转txt,python,microsoft,windows,python

 文章来源地址https://www.toymoban.com/news/detail-647372.html


使用google翻译将88份日语DOCX字幕翻译成为简体中文版本了!
Microsoft Windows [版本 10.0.19044.2728]
(c) Microsoft Corporation。保留所有权利。

C:\Users\QQ>python3

C:\Users\QQ>python

C:\Users\QQ>python
Python 3.11.3 (tags/v3.11.3:f3909b8, Apr  4 2023, 23:49:59) [MSC v.1934 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import os
>>> from pdf2docx import Converter
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'pdf2docx'
>>>

python docx转txt,python,microsoft,windows,python

 


Microsoft Windows [版本 10.0.19044.2728]
(c) Microsoft Corporation。保留所有权利。

C:\Users\QQ>pip install pdf2docx
Collecting pdf2docx
  Downloading pdf2docx-0.5.6-py3-none-any.whl (148 kB)
     ---------------------------------------- 148.4/148.4 kB 368.3 kB/s eta 0:00:00
Collecting PyMuPDF>=1.19.0
  Downloading PyMuPDF-1.22.2-cp311-cp311-win_amd64.whl (11.7 MB)
     ---------------------------------------- 11.7/11.7 MB 12.8 MB/s eta 0:00:00
Collecting python-docx>=0.8.10
  Downloading python-docx-0.8.11.tar.gz (5.6 MB)
     ---------------------------------------- 5.6/5.6 MB 1.6 MB/s eta 0:00:00
  Preparing metadata (setup.py) ... done
Collecting fonttools>=4.24.0
  Downloading fonttools-4.39.3-py3-none-any.whl (1.0 MB)
     ---------------------------------------- 1.0/1.0 MB 12.8 MB/s eta 0:00:00
Collecting numpy>=1.17.2
  Downloading numpy-1.24.3-cp311-cp311-win_amd64.whl (14.8 MB)
     ---------------------------------------- 14.8/14.8 MB 21.1 MB/s eta 0:00:00
Collecting opencv-python>=4.5
  Downloading opencv_python-4.7.0.72-cp37-abi3-win_amd64.whl (38.2 MB)
     ---------------------------------------- 38.2/38.2 MB 12.6 MB/s eta 0:00:00
Collecting fire>=0.3.0
  Downloading fire-0.5.0.tar.gz (88 kB)
     ---------------------------------------- 88.3/88.3 kB 4.9 MB/s eta 0:00:00
  Preparing metadata (setup.py) ... done
Collecting six
  Downloading six-1.16.0-py2.py3-none-any.whl (11 kB)
Collecting termcolor
  Downloading termcolor-2.3.0-py3-none-any.whl (6.9 kB)
Collecting lxml>=2.3.2
  Downloading lxml-4.9.2-cp311-cp311-win_amd64.whl (3.8 MB)
     ---------------------------------------- 3.8/3.8 MB 10.0 MB/s eta 0:00:00
Installing collected packages: termcolor, six, PyMuPDF, numpy, lxml, fonttools, python-docx, opencv-python, fire, pdf2docx
  WARNING: The script f2py.exe is installed in 'C:\Users\QQ\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\Scripts' which is not on PATH.
  Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
  WARNING: The scripts fonttools.exe, pyftmerge.exe, pyftsubset.exe and ttx.exe are installed in 'C:\Users\QQ\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\Scripts' which is not on PATH.
  Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
  DEPRECATION: python-docx is being installed using the legacy 'setup.py install' method, because it does not have a 'pyproject.toml' and the 'wheel' package is not installed. pip 23.1 will enforce this behaviour change. A possible replacement is to enable the '--use-pep517' option. Discussion can be found at https://github.com/pypa/pip/issues/8559
  Running setup.py install for python-docx ... done
  DEPRECATION: fire is being installed using the legacy 'setup.py install' method, because it does not have a 'pyproject.toml' and the 'wheel' package is not installed. pip 23.1 will enforce this behaviour change. A possible replacement is to enable the '--use-pep517' option. Discussion can be found at https://github.com/pypa/pip/issues/8559
  Running setup.py install for fire ... done
  WARNING: The script pdf2docx.exe is installed in 'C:\Users\QQ\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\Scripts' which is not on PATH.
  Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
Successfully installed PyMuPDF-1.22.2 fire-0.5.0 fonttools-4.39.3 lxml-4.9.2 numpy-1.24.3 opencv-python-4.7.0.72 pdf2docx-0.5.6 python-docx-0.8.11 six-1.16.0 termcolor-2.3.0

[notice] A new release of pip available: 22.3.1 -> 23.1.2
[notice] To update, run: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip

C:\Users\QQ>

python docx转txt,python,microsoft,windows,python

python docx转txt,python,microsoft,windows,python 

 


Microsoft Windows [版本 10.0.19044.2728]
(c) Microsoft Corporation。保留所有权利。

C:\Users\QQ>pip install win32com
ERROR: Could not find a version that satisfies the requirement win32com (from versions: none)
ERROR: No matching distribution found for win32com

[notice] A new release of pip available: 22.3.1 -> 23.1.2
[notice] To update, run: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip

C:\Users\QQ>
C:\Users\QQ>pip install pypwin32
ERROR: Could not find a version that satisfies the requirement pypwin32 (from versions: none)
ERROR: No matching distribution found for pypwin32

[notice] A new release of pip available: 22.3.1 -> 23.1.2
[notice] To update, run: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip

C:\Users\QQ>
C:\Users\QQ>pip install  pypiwin32
Collecting pypiwin32
  Downloading pypiwin32-223-py3-none-any.whl (1.7 kB)
Collecting pywin32>=223
  Downloading pywin32-306-cp311-cp311-win_amd64.whl (9.2 MB)
     ---------------------------------------- 9.2/9.2 MB 895.2 kB/s eta 0:00:00
Installing collected packages: pywin32, pypiwin32
Successfully installed pypiwin32-223 pywin32-306

[notice] A new release of pip available: 22.3.1 -> 23.1.2
[notice] To update, run: C:\Users\QQ\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip

C:\Users\QQ>
C:\Users\QQ>

python docx转txt,python,microsoft,windows,python

python docx转txt,python,microsoft,windows,python 

python docx转txt,python,microsoft,windows,python 

 


Microsoft Windows [版本 10.0.19044.2728]
(c) Microsoft Corporation。保留所有权利。

C:\Users\QQ>d:

D:\>dir *.pty
 驱动器 D 中的卷是 DATA
 卷的序列号是 547F-1046

 D:\ 的目录

找不到文件

D:\>dir *.py
 驱动器 D 中的卷是 DATA
 卷的序列号是 547F-1046

 D:\ 的目录

2023/05/07  19:55             1,221 pdf2doc2.py
               1 个文件          1,221 字节
               0 个目录 195,912,142,848 可用字节

D:\>python pdf2doc2.py
SyntaxError: Non-UTF-8 code starting with '\xd5' in file D:\pdf2doc2.py on line 4, but no encoding declared; see https://peps.python.org/pep-0263/ for details

D:\>


Microsoft Windows [版本 10.0.19044.2728]
(c) Microsoft Corporation。保留所有权利。

C:\Users\QQ>d:

D:\>dir *.pty
 驱动器 D 中的卷是 DATA
 卷的序列号是 547F-1046

 D:\ 的目录

找不到文件

D:\>dir *.py
 驱动器 D 中的卷是 DATA
 卷的序列号是 547F-1046

 D:\ 的目录

2023/05/07  19:55             1,221 pdf2doc2.py
               1 个文件          1,221 字节
               0 个目录 195,912,142,848 可用字节

D:\>python pdf2doc2.py
SyntaxError: Non-UTF-8 code starting with '\xd5' in file D:\pdf2doc2.py on line 4, but no encoding declared; see https://peps.python.org/pep-0263/ for details

D:\>
D:\>python pdf2doc2.py
  File "D:\pdf2doc2.py", line 36
    print('共计%d篇docx文章已完全转换为txt' pdf_num-1))
                                           ^
SyntaxError: unmatched ')'

D:\>python pdf2doc2.py
MIDE-599.google.docx
第 1 篇docx已转换为txt
OAE-101.google.docx
第 2 篇docx已转换为txt
OAE-165.google.docx
第 3 篇docx已转换为txt
OFJE-139 1.google.docx
第 4 篇docx已转换为txt
OFJE-139 2.google.docx
第 5 篇docx已转换为txt
OFJE-189.google.docx
第 6 篇docx已转换为txt
OFJE-236.google.docx
第 7 篇docx已转换为txt
pSSNI-473.google.docx
第 8 篇docx已转换为txt
SIVR-001.google.docx
第 9 篇docx已转换为txt
SIVR-002.google.docx
第 10 篇docx已转换为txt
SIVR-003.google.docx
第 11 篇docx已转换为txt
SIVR-012 1.google.docx
第 12 篇docx已转换为txt
SIVR-012 2.google.docx
第 13 篇docx已转换为txt
SIVR-015 1.google.docx
第 14 篇docx已转换为txt
SIVR-015 2.google.docx
第 15 篇docx已转换为txt
SIVR-016 1.google.docx
第 16 篇docx已转换为txt
SIVR-016 2.google.docx
第 17 篇docx已转换为txt
SIVR-017 1.google.docx
第 18 篇docx已转换为txt
SIVR-017 2.google.docx
第 19 篇docx已转换为txt
SIVR-017 3.google.docx
第 20 篇docx已转换为txt
SIVR-033 1.google.docx
第 21 篇docx已转换为txt
SIVR-033 2.google.docx
第 22 篇docx已转换为txt
SIVR-033 3.google.docx
第 23 篇docx已转换为txt
SIVR-033 4.google.docx
第 24 篇docx已转换为txt
SIVR-033 5.google.docx
第 25 篇docx已转换为txt
SIVR-033 6.google.docx
第 26 篇docx已转换为txt
SIVR-034 1.google.docx
第 27 篇docx已转换为txt
SIVR-034 2.google.docx
第 28 篇docx已转换为txt
SIVR-034 3.google.docx
第 29 篇docx已转换为txt
SIVR-044 1.google.docx
第 30 篇docx已转换为txt
SIVR-044 2.google.docx
第 31 篇docx已转换为txt
SIVR-061 1.google.docx
第 32 篇docx已转换为txt
SIVR-061 2.google.docx
第 33 篇docx已转换为txt
SIVR-061 3.google.docx
第 34 篇docx已转换为txt
SIVR-061 4.google.docx
第 35 篇docx已转换为txt
SIVR-067 1.google.docx
第 36 篇docx已转换为txt
SIVR-067 2.google.docx
第 37 篇docx已转换为txt
SIVR-067 3.google.docx
第 38 篇docx已转换为txt
SNIS-786.google.docx
第 39 篇docx已转换为txt
SNIS-800.google.docx
第 40 篇docx已转换为txt
SNIS-850 1.google.docx
第 41 篇docx已转换为txt
SNIS-850 2.google.docx
第 42 篇docx已转换为txt
SNIS-872.google.docx
第 43 篇docx已转换为txt
SNIS-896.google.docx
第 44 篇docx已转换为txt
SNIS-919.google.docx
第 45 篇docx已转换为txt
SNIS-964.google.docx
第 46 篇docx已转换为txt
SNIS-964.google2.docx
第 47 篇docx已转换为txt
SNIS-986.google.docx
第 48 篇docx已转换为txt
SSNI-009.google.docx
第 49 篇docx已转换为txt
SSNI-030.google.docx
第 50 篇docx已转换为txt
SSNI-054.google.docx
第 51 篇docx已转换为txt
SSNI-077.google.docx
第 52 篇docx已转换为txt
SSNI-101.google.docx
第 53 篇docx已转换为txt
SSNI-127.google.docx
第 54 篇docx已转换为txt
SSNI-152.google.docx
第 55 篇docx已转换为txt
SSNI-178.google.docx
第 56 篇docx已转换为txt
SSNI-205.google.docx
第 57 篇docx已转换为txt
SSNI-229.google.docx
第 58 篇docx已转换为txt
SSNI-254.google.docx
第 59 篇docx已转换为txt
SSNI-279.google.docx
第 60 篇docx已转换为txt
SSNI-301.google.docx
第 61 篇docx已转换为txt
SSNI-322.google.docx
第 62 篇docx已转换为txt
SSNI-344.google.docx
第 63 篇docx已转换为txt
SSNI-388.google.docx
第 64 篇docx已转换为txt
SSNI-409.google.docx
第 65 篇docx已转换为txt
SSNI-432.google.docx
第 66 篇docx已转换为txt
SSNI-452.google.docx
第 67 篇docx已转换为txt
SSNI-473.google.docx
第 68 篇docx已转换为txt
SSNI-493.google.docx
第 69 篇docx已转换为txt
SSNI-516.google.docx
第 70 篇docx已转换为txt
SSNI-542.google.docx
第 71 篇docx已转换为txt
SSNI-566.google.docx
第 72 篇docx已转换为txt
SSNI-589.google.docx
第 73 篇docx已转换为txt
SSNI-618.google.docx
第 74 篇docx已转换为txt
SSNI-644.google.docx
第 75 篇docx已转换为txt
SSNI-674.google.docx
第 76 篇docx已转换为txt
SSNI-703.google.docx
第 77 篇docx已转换为txt
SSNI-730.google.docx
第 78 篇docx已转换为txt
TEK-067.google.docx
第 79 篇docx已转换为txt
TEK-071.google.docx
第 80 篇docx已转换为txt
TEK-072.google.docx
第 81 篇docx已转换为txt
TEK-073.google.docx
第 82 篇docx已转换为txt
TEK-076.google.docx
第 83 篇docx已转换为txt
TEK-079只有音频.google.docx
第 84 篇docx已转换为txt
TEK-080.google.docx
第 85 篇docx已转换为txt
TEK-081只有音频.google.docx
第 86 篇docx已转换为txt
TEK-083只有音频.google.docx
第 87 篇docx已转换为txt
TEK-097.google.docx
第 88 篇docx已转换为txt

D:\>


参考资料:
python 批量 转换 DOCX TXT


https://blog.csdn.net/weixin_46255747/article/details/129961988
python实现批量docx转txt


ModuleNotFoundError: No module named 'pdf2docx'


python win32com pip install


https://blog.csdn.net/qq_45662588/article/details/130315080
python3.9之安装win32com库的解决办法


https://blog.csdn.net/longe20111104/article/details/129754624
pip install win32com报错解决办法
pip install  pypiwin32


SyntaxError: Non-UTF-8 code starting with '\xd5' in file D:\pdf2doc2.py on line 4, but no encoding d


https://blog.csdn.net/coco_apple/article/details/113437552
SyntaxError: Non-UTF-8 code starting with ‘\xd5‘ in file
# – coding: gbk –

python docx转txt,python,microsoft,windows,python

python docx转txt,python,microsoft,windows,python 

python docx转txt,python,microsoft,windows,python 

python docx转txt,python,microsoft,windows,python 

 

到了这里,关于20230507使用python3批量转换DOCX文档为TXT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python3处理docx并flask显示

    最近有需求处理docx文件,并讲内容显示到页面,对world进行在线的阅读,这样我这里就使用flask+Document对docx文件进行处理并显示,下面直接上代码: 首先下载Document的库文件,先直接安装最新版的python-docx,如果不行则换成1.1.0版本: 处理docx代码如下: 上述代码会对docx文件

    2024年02月03日
    浏览(24)
  • 借助文档控件Aspose.Words,将 Word DOC/DOCX 转换为 TXT

    在文档处理领域,经常需要将 Word 文档转换为更简单的纯文本格式。无论是出于数据提取、内容分析还是兼容性原因,将 Word(.doc、.docx)文件转换为纯文本(.txt)的能力对于开发人员来说都是一项宝贵的技能。在这篇博文中,我们将探讨如何在 C# 应用程序中将 Word 文档转换

    2024年01月19日
    浏览(41)
  • Python+docx实现python对word文档的编辑

            该模块可以通过python代码来对word文档进行大批量的编辑。docx它提供了一组功能丰富的函数和方法,用于创建、修改和读取Word文档。下面是 docx 模块中一些常用的函数和方法的介绍: 安装:pip install docx                  通过遍历  doc.paragraphs  来获取文档中

    2024年02月16日
    浏览(30)
  • 使用Python批量转换彩色图片到灰度图片

    当涉及到图像处理和计算机视觉时,有时需要将彩色图片转换为灰度图片,一张一张使用PS等工具转换十分复杂且没有必要。今天介绍的这种方法用到了Pillow库。使用Pillow库来打开,加载并转换彩色图像,并将图像储存在另一个文件夹里。具体步骤如下所示。 目录  〇、准备

    2024年02月05日
    浏览(47)
  • python之python-docx:操作 office word 文档

    在Python中,有一个名为 python-docx 的库,它提供了丰富的功能,可以方便地创建、修改和读取Word文档。 本文将详细介绍 python-docx 库的使用,并提供一些示例来演示其中的功能。为了更好地理解,我们将分为以下几个方面进行讨论: 安装 python-docx 创建和保存Word文档 修改现有

    2024年02月12日
    浏览(26)
  • 使用OpenXML库替换docx文档(Word文档)中的特定字段

    在批量生成Word文档的应用中,最常见的需求莫过于替换掉文档中的特定字段以生成新的文档。利用OpenXML库可轻松实现这一需求。 首先放出最简单然而有bug的版本: 该版本的原理是遍历word文档中的每个段落,搜索段落中的每个文字字段对象,如果找到匹配的值就将其替换成

    2024年02月11日
    浏览(32)
  • 使用Python将图像转换为PDF:一次性解决您的批量转换需求

    导语: 在数字化时代,我们经常需要处理大量的图像文件。将这些图像转换为PDF格式可以方便地存档、分享和打印。本文将介绍如何使用Python编程语言将图像批量转换为PDF,并提供了一个简单易用的图形界面来跟踪转换进度。 在开始之前,请确保您已经安装了以下库: PyM

    2024年02月14日
    浏览(31)
  • vue 使用docx库生成word表格文档

            在Vue.js中生成Word表格文档,可以通过前端库来实现。这些库可以帮助我们轻松地将HTML表格转换为Word文档(通常是.docx格式)。以下是一些流行的前端库,它们可以用于在Vue项目中生成Word表格文档:                  docx是一个流行的JavaScript库,用于在浏览

    2024年02月21日
    浏览(43)
  • 【Python】导出docx格式Word文档中的文本、图片和附件等

    为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理。需要批量提取Word文档中的图片和附件以便进一步检查。如何提取?我想到了用起来比较方便的Python,经过试验,方案可行,故此记录。学生的作业主要是docx或者doc文档,学生把项目打成压缩包

    2024年02月07日
    浏览(33)
  • 使用Python将Word文档转换为PDF的方法

    摘要: 文介绍了如何使用Python编程语言将Word文档转换为PDF格式的方法。我们将使用python-docx和pywin32库来实现这个功能,这些库提供了与Microsoft Word应用程序的交互能力。 正文: 在现实生活和工作中,我们可能会遇到将Word文档转换为PDF格式的需求。PDF格式具有广泛的应用,可

    2024年02月14日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包