phtyon读取pdf的远程地址解析内容

这篇具有很好参考价值的文章主要介绍了phtyon读取pdf的远程地址解析内容。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl
 

#  添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

# 读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)
remote_file=req.read()
memory_file = io.BytesIO(remote_file)
read_pdf = PyPDF2.PdfReader(memory_file)

# 获取pdf页数
number_of_pages = len(read_pdf.pages)
for i in range(0, number_of_pages):
        pageObj = read_pdf.pages[i]
        # 获取当前页数的pdf内容
        page = pageObj.extract_text()

# 处理后续业务流程 .......................文章来源地址https://www.toymoban.com/news/detail-599240.html

到了这里,关于phtyon读取pdf的远程地址解析内容的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python读取并解析邮箱邮件,读取邮件主题、内容、时间

    python读取邮件时,首先需要邮箱开启IMAP服务或POP服务,通常在邮箱的设置界面可以开启,不过默认似乎是不开启的。 IMAP是什么?IMAP和POP有什么区别?:https://open.work.weixin.qq.com/help2/pc/19887?person_id=1 以腾讯邮箱为例,在开启imap服务同一个界面下,会看到相关配置: 这里我们

    2024年01月21日
    浏览(31)
  • python hdfs远程连接以及上传文件,读取文件内容,删除文件

    目录 一、python连接操作hdfs 1 往hdfs上传文件 2 处理并存储到hdfs 3 读取hdfs上的txt文件 这里使用的是 pip 安装,很方便:      

    2024年02月11日
    浏览(41)
  • Python中对open读取文件内容时的mode模式解析

    Python3中的open函数定义为: 其中mode列表为: 这里我们主要关心一下\\\'r\\\', \\\'w\\\', \\\'a\\\', \\\'r+\\\', \\\'w+\\\', \\\'a+\\\', \\\'x\\\',很多人容易混淆不同模式的读写操作 2.\\\'r\\\' 只读模式,open函数中mode参数的默认模式,文件不存在的话,报FileNotFoundError(python2是IOError); 文件打开后,初始游标位置为0; 每次读都

    2024年02月12日
    浏览(29)
  • 【PDFBox】PDFBox操作PDF文档之读取指定页面文本内容、读取所有页面文本内容、根据模板文件生成PDF文档

    这篇文章,主要介绍PDFBox操作PDF文档之读取指定页面文本内容、读取所有页面文本内容、根据模板文件生成PDF文档。 目录 一、PDFBox操作文本 1.1、读取所有页面文本内容 1.2、读取指定页面文本内容 1.3、写入文本内容 1.4、替换文本内容 (1)自定义PDTextStripper类 (2)创建Key

    2024年02月16日
    浏览(49)
  • java 读取pdf文件内容

    https://blog.csdn.net/ThinkPet/article/details/131256428

    2024年02月08日
    浏览(39)
  • PDF加粗内容重复读取解决方案

    在使用 pdfplumber 读取 PDF 的过程中,由于加黑的内容会被莫名其妙的读取两次,带来了很大的困扰。这篇文章将给出解决方案。 在在使用 pdfplumber 读取 PDF 的过程中,读取普通内容是完全没有问题的。但是该公司早期 PDF 并未完全规范的过程中,有些标题加粗了,而有些却没有

    2024年02月22日
    浏览(32)
  • JAVA读取(DOC、DOCX、PDF、PPT、PPTX)文件文本内容及图片

    温馨提示:有很多方法均可以解析这些常见的文件,以下内容使用的是apache-poi + apache-pdfbox实现的。         关于文档解析,在网上搜索了很久,无奈内容太过繁杂,找不到合适的代码,一大半都是只支持文本。没办法,只能自己在网上一点一点CV了,最终提取了这些代码

    2024年02月03日
    浏览(41)
  • 利用Apache Tika分页解析pdf文件内容

    Apache Tika是一个多功能的文档内容提取工具,可以提取多种类型的文档内容,常用的如pdf、office等格式。网上的例子基本上都是提取整篇文档内容,实际上用Tika提取pdf等文档的内容主要场景多半是给搜索引擎提供更精细化的搜索推荐,需要按页面或段落方式进行内容提取。

    2024年02月15日
    浏览(30)
  • Java如何快速读取&解析JSON数据(文件),获取想要的内容?

    手打不易,如果转摘,请注明出处! 注明原文: https://zhangxiaofan.blog.csdn.net/article/details/132764186 目录 前言 准备工作 Json数据(示例) 解析Json文件 第一步:创建一个空类 第二步:使用 Gsonformat 插件  第三步:复制Json内容,创建对应类 第四步:读取Json文件,提取目标数据

    2024年02月05日
    浏览(63)
  • python读取pdf文件

    使用python读取pdf文件的内容 读取第1页的内容: 输出该pdf文件共有多少页,并输出该pdf的第1页的内容。 读取第1-100页的内容: 输出该pdf文件共有多少页,并输出该pdf的第1-100页的内容。 注意:将a.pdf与python文件放在同一目录下。    

    2024年02月16日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包