textract OCR的安装使用

这篇具有很好参考价值的文章主要介绍了textract OCR的安装使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

安装

pip install textract

使用

在 Python 中,textract 是一个用于提取文本和信息的库。它提供了一个函数 textract.process(),用于处理不同类型的文档并提取文本内容。下面是 textract.process() 函数的各个参数的介绍:

  1. filename(必需参数):要处理的文件的路径或文件对象。可以是本地文件的路径或文件对象,也可以是远程文件的URL。
  2. encoding(可选参数):指定文本编码格式。默认为 None,表示自动检测文本的编码。你可以指定其他编码格式,如 'utf-8''latin-1' 等。
  3. method(可选参数):指定文本提取的方法。默认为 None,表示使用自动检测的方法。可用的方法包括 'tesseract''pdfminer''docx''pptx''xlrd' 等。你也可以传递一个方法列表,textract 将按顺序尝试这些方法,直到成功提取文本。
  4. language(可选参数):指定要用于文本提取的语言。默认为 None,表示自动检测语言。你可以指定语言代码,如 'en' 表示英文,'de' 表示德文等。
  5. processing_flags(可选参数):指定额外的处理标志。这是一个位掩码,用于控制处理过程中的不同选项。常用的标志包括 textract.processing_flags.PDF_STEMMING(对 PDF 进行词干提取)、textract.processing_flags.PDF_PRESERVE_LAYOUT(保留 PDF 文档的布局)等。
  6. engine_args(可选参数):指定提取引擎的附加参数。这是一个字典,用于传递特定提取引擎的参数。根据不同的提取方法,可用的参数也不同。
  7. extension(可选参数):指定文件的扩展名。默认为 None,表示根据文件名自动检测扩展名。如果文件名没有扩展名,或者需要强制使用特定的提取方法,可以通过指定扩展名来选择提取方法。
"""
textract的使用
"""
import textract


def file2text(file_path, encodings="utf-8", lang="chi_sim"):
    """
    :function: 识别各个文件,如img、pdf、doc等转换文本内容
    :param file_path:指定文件的路径
    :param encodings: 转换出的编码格式
    :param lang: 识别的语言集
    :return: 返回转换出的文本内容
    """
    # 使用textract提取文本
    text = textract.process(file_path, encoding=encodings, language=lang)

    # 返回提取到的文本
    return text.decode('utf-8')

图片OCR

Windows下安装tesseract

  1. 在官网Index of /tesseract (uni-mannheim.de)下载tesseract,下载时在选择更多语言包时记得勾选中文包
  2. 配置tesseract程序的环境变量
  3. 命令行输入tesseract,出现下图即安装成功textract OCR的安装使用

PDF OCR

  1. 首先安装poppler包

poppler包是pdftotext的依赖包,在conda环境下运行下列命令即可:

conda install -c conda-forge poppler
  1. 使用pip命令安装pdfminer.six包,该包在多种环境下均可一键pip安装
pip install pdfminer.six

DOCX OCR

DOCX OCR在安装textract时,已经安装了相关的ocr包文章来源地址https://www.toymoban.com/news/detail-499731.html

到了这里,关于textract OCR的安装使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Tesseract开源的OCR工具及python pytesseract安装使用

    一 、介绍 Tesseract是一款由Google赞助的开源OCR。 pytesseract是python包装器,它为可执行文件提供了pythonic API。 Tesseract 已经有 30 年历史,开始它是惠普实验室的一款专利软件,在2005年后由Google接手并进一步开发和完善。Tesseract支持多种语言文字的检测和识别,包括中文、英语、

    2024年02月15日
    浏览(48)
  • pix2tex - LaTeX OCR 安装使用记录

    项目地址:这儿 版本要求 Python: 3.7+ PyTorch: =1.7.1 安装: 注意:Pyside6 和 PyQt6 版本需要保持一致,否则会报 QT 错误 打开 Windows 终端,输入命令: 注意:需要将 latexocr.exe 所在路径添加到系统 Path 路径下,以便找到该可执行文件 例如: 可以识别出来,如果识别有错误,可以直

    2024年02月06日
    浏览(52)
  • 报错:在从 Git 上拉取代码后,使用 npm install 安装依赖失败,但使用 yarn 可以成功安装,这是为什么

    在从 Git 上拉取代码后,使用 npm install 安装依赖失败,但使用 yarn 可以成功安装的原因可能有多种,以下是一些常见原因: 安装的依赖库版本不兼容。有时候,package.json 文件中的依赖库版本与本地或全局的 Node.js 环境不兼容,或与已安装的其他依赖库的版本不兼容,在使用

    2024年02月08日
    浏览(59)
  • 使用 npm install安装依赖时报错 npm ERR! Error while executing

    问题描述:vue-element-admin使用 npm install安装依赖时报错 npm ERR! Error while executing 解决办法1:(没有解决我的问题) 执行如下命令: 再执行 npm install 就可以了 如果上述命令执行完后,还是报那个错误,请继续执行如下命令,亲测有效 解决办法2:(解决了我的问题!!!)

    2024年02月11日
    浏览(232)
  • OCR之Tesseract安装

    Tesseract是常用的开源OCR识别引擎,后续的图片文字识别项目我们将会调用该库进行识别,本文针对Tesseract的安装配置进行相关说明。 下载地址:Tesseract 选择最新的版本进行下载,下载完成后,解压安装在自己设定的安装路径,一直选择next即可完成安装。 打开系统属性页面,

    2024年02月14日
    浏览(42)
  • 使用npm install -g @vue/cli 命令安装最新的脚手架与Vue版本不匹配的问题

    使用npm install -g @vue/cli 命令安装最新的脚手架 创建项目时不要选择Vue版本,让它默认选择(默认选择 Vue2)否则会出现 vue版本和脚手架版本vue-cli 不兼容的问题(怪哉) 脚手架兼容vue2 不兼容vue3 ? 不理解,记录一下,后续整理 Vue-cli版本 vue 版本 创建项目时 ,选择默认不要

    2024年02月12日
    浏览(67)
  • 使用VisualStudio2022插件(Visual Studio Installer Projects 2022)打包 .Net 6 框架下的 WPF项目 为安装文件

    目录 更新说明(2024/01/22) 序言 一、还是安装Visual Studio Installer Projects 2022插件 二、创建Setup Project项目 2.1 在现有解决方案中添加Setup Project项目 2.2 (更新)添加需要打包的文件  2.2.1 准备添加输出项。 2.2.2 【核心】添加 WpfMain 项目输出。 2.2.3 添加 WpfPluginManager 项目输出。

    2024年02月03日
    浏览(112)
  • 解决使用conda env create -f environment.yml安装依赖包时Installing pip dependencies过慢的问题

    问题描述 使用conda env create -f environment.yml安装依赖包时,会遇到Installing pip dependencies过慢的问题。这是由于没有使用镜像源。如下图所示 解决方案 可以尝试对environment.yml文件进行以下修改,添加镜像源即可: 将channels改为(注意要把default去掉): 并在pip的依赖包里添加上镜

    2024年02月12日
    浏览(53)
  • Anaconda虚拟环境下更换python版本【不论升版本、降版本都使用conda install python命令】【注意:修改版本后原来使用pip安装的包会被删掉,无法使用】

    使用python -V命令查看当前虚拟环境的python版本: 可知python版本为为3.7.15,现在我想把它升级为3.8。 使用命令: 可知python版本已经变为3.8。 如果在conda install python=3.8中遇到问题,例如: Solving environment: failed with initial frozen solve. Retrying with flexible solve.  则可以先使用:  当当

    2024年02月11日
    浏览(87)
  • 搭建自己的OCR服务,第二步:PaddleOCR环境安装

    PaddleOCR环境安装,遇到了很多问题,根据系统不同问题也不同,不要盲目看别人的教程,有的教程也过时了,根据实际情况自己调整。 我这边目前是使用windows 10系统+CPU + python 3.7 搭建。 熟悉OCR的人应该知道,最好用GPU,性能差距不是一点点,但是普通人没有那个条件怎么办

    2024年02月09日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包