使用gradio创建一个提取pdf、excel中表格数据的demo

这篇具有很好参考价值的文章主要介绍了使用gradio创建一个提取pdf、excel中表格数据的demo。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

使用Gradio创建一个提取pdf、excel中表格数据的demo

在线体验地址 (https://swanhub.co/patch/TabularScan/demo)

大家可以在上面的链接中试用,需求不大也不用自己弄代码了。
后续大家如果有一些代码或功能想快速部署、提供服务,不管是 AI 项目或是 web 项目,也可以直接托管在 swanhub开源社区 上,方便快捷,而且免费

最近需要对pdf、excel文件中的表格进行提取,用于一些分析,所以使用python完成了一个小工具,可以处理上传的pdf、excel文件,将其中所有表格提取出后存入数组输出:

import gradio as gr
import pdfplumber
import os
import openpyxl


def process_pdf(file):
    file_extension = os.path.splitext(file.orig_name)[-1]

    tables = []

    if file_extension == ".pdf":
        with pdfplumber.open(file.orig_name) as pdf:
            for page in pdf.pages:
                table = page.extract_tables()
                tables.append(table)
    elif file_extension == '.xlsx':
        excel = openpyxl.load_workbook(file.orig_name)
        for name in excel.sheetnames:
            sheet = excel[name]

            max_row = sheet.max_row
            max_column = sheet.max_column

            for row in sheet.iter_rows(values_only=True):
                row_data = []
                for cell_value in row:
                    row_data.append(cell_value)  # 将单元格值添加到当前行的数据列表
                tables.append(row_data)  # 将当前行的数据列表添加到主数组

    return tables


iface = gr.Interface(
    fn=process_pdf,
    inputs=gr.inputs.File(type="file"),
    outputs="text",
    title="上传 PDF/Excel 文件",
    description="提取上传文件中的所有表格,并以数组形式输出",
)

iface.launch()

其中使用到了几个库:

  • 提取 pdf 使用到的:pdfplumber
  • 提取 excel 使用到的:openpyxl

两个库的使用方法不难,文档可以直接在github上找到文章来源地址https://www.toymoban.com/news/detail-701368.html

到了这里,关于使用gradio创建一个提取pdf、excel中表格数据的demo的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python读取表格数据将pdf文件转excel文件最新可用方法

    【ptf】 【转换后Excel】 可用看到表格内容位置一致,转换完成 (1)安装camelot库 (2)转换代码

    2024年02月15日
    浏览(31)
  • Python提取JSON文件中的指定数据并保存在CSV或Excel表格文件内

      本文介绍基于 Python 语言,读取 JSON 格式的数据,提取其中的指定内容,并将提取到的数据保存到 .csv 格式或 .xlsx 格式的表格文件中的方法。    JSON 格式的数据在数据信息交换过程中经常使用,但是相对而言并不直观;因此,有时我们希望将 JSON 格式的数据转换为 E

    2024年02月11日
    浏览(30)
  • 【Python数据分析】利用Python将多个EXCEL表格合并为一个EXCEL表格

            如何将EXCEL的多个表格合并成一个表格呢?比如每月销售额是一个单独的表格,我想把它们合并成一个表格,今天就与大家分享如何利用Python数据分析3分钟搞定,不管你要合并多少个文件,代码总是那么几行。不多说了,上案例。          现在有3个月的销售额,需

    2023年04月24日
    浏览(35)
  • Python 实战 | 从 PDF 中提取(框线不全的)表格

    更多详情请点击查看原文:Python 实战 | 从 PDF 中提取(框线不全的)表格 Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python! 点击此处查看往期Python教学内容 本文目录 一、引

    2024年04月14日
    浏览(27)
  • 如何通过Java的Apache PDFBox库制作一个PDF表格模板并填充数据

    要使用Java的Apache PDFBox库制作一个PDF表格模板并填充数据,你需要遵循以下步骤: 添加依赖 :首先,确保你的项目中包含了Apache PDFBox的依赖。如果你使用Maven,可以在你的 pom.xml 文件中添加以下依赖: 创建PDF模板 :你可以使用PDFBox创建一个简单的PDF模板,或者使用其他工具

    2024年02月22日
    浏览(46)
  • Springboot基于easyexcel实现一个excel文件包含多个sheet表格的数据导出

    EasyExcel 是一款基于Java的开源Excel操作工具,它提供了简单且强大的 API,使开发人员可以轻松地读写、操作和生成Excel文件。 EasyExcel 支持 Excel 文件的导入和导出,可以处理大量数据,具有高性能和低内存占用。它可以读取 Excel 文件中的数据,并将数据转换为 Java 对象,也可

    2024年02月03日
    浏览(45)
  • 如何批量提取pdf文件名到excel?

    nbsp; nbsp; 如何批量提取pdf文件名到excel?在大家整理PDF文档的时候会不会遇到下面这些问题,首先PDF过多,每个PDF文件都有自己的名字,我们想要分类排放的话非常麻烦,不仅耗费时间而且带来的收益非常低,然后即使我们整理好了PDF文档,后续想要寻找这些PDF文档的话也是

    2024年02月03日
    浏览(37)
  • Python实操 PDF自动识别并提取Excel文件

    最近几天,paddleOCR开发了新的功能,通过将图片中的表格提取出来,效果还不错,今天,作者按照步骤测试了一波。 首先,讲下这个工具是干什么用的: 它的功能主要是针对一张完整的PDF图片,可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以

    2024年02月09日
    浏览(26)
  • R语言批量将PDF中表格,转化为excel

    您好!以下是使用R语言将PDF中的表格批量转化为Excel的步骤: 1. 安装必要的包 您需要安装`pdftools`和`tabulizer`包。可以通过以下代码来安装它们: install.packages(\\\"pdftools\\\") install.packages(\\\"tabulizer\\\")   2. 设置工作目录 将包含PDF文件的文件夹设置为R的工作目录。可以使用以下代码来设

    2024年02月11日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包