Python采集某网站文档,并保存word格式

这篇具有很好参考价值的文章主要介绍了Python采集某网站文档,并保存word格式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

哈喽兄弟们

我们平常需要下载文档的时候,是不是发现,要么不能下载,要么不能复制,就能难受。

常见的文档网站很多,但是这里就不一一说名字了,emmm

那么我们今天来分享一下,如何用Python将这些不给下载的文档给批量下载下来。

你需要准备

开发环境

python 3.8
pycharm

模块使用

两个需要安装的第三方模块,安装命令也写出来了。

requests --> pip install requests
re
base64
docx --> pip install python-docx

本文实现思路

一、数据来源分析

  1. 明确需求
    明确采集网址以及数据内容是什么?
    网址: https://www.***.com/p-3282300896.html
    数据: 文档内容
  2. 抓包分析, 我们需要数据内容是可以请求那个链接能够得到
    文档形式: 图片样式
    通过浏览器自带工具: 开发者工具抓包
    打开开发者工具: F12 / 右键点击检查选择network
    刷新网页
    开发者工具搜索: docinpic
    文档图片数据
    链接: http://221.122.117.73/docinpic.jsp
    sid: P1ekRarOT5ID*deCCfQPHapgA9Z5X3NNn0xfBxPIDApUnSY9yIVtfuxey1BsO1BG <获取>
    file: 文档ID <可以自己获取>
    width: 图片分辨率
    pageno: 页码 <可以用for循环>

二、代码实现步骤

  1. 发送请求, 模拟浏览器对于 文档页面url地址 发送请求
    请求链接: https://www.***.com/p-3282300896.html
  2. 获取数据, 获取服务器返回响应数据
  3. 解析数据, 提取我们需要的内容:
    sid参数 / 文档页数 / 文档名称
    构建文档图片链接
  4. 保存数据, 把文档图片内容保存下来

通过文字识别, 把图片里面文字识别出来, 保存文档里面就可以了

会使用百度云API接口:
1. 注册登陆百度云API
2. 选择文字识别, 创建应用, 领取免费资源, 点击技术文档
3. 先获取token值
4. API调用的文档代码

代码展示

文字识别

doc = Document()
 
 
def Content(content):
    url = "https://a***.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    access_token = response.json()['access_token']

    request_url = "https://***.com/rest/2.0/ocr/v1/accurate_basic"
    # 二进制方式打开图片文件
    # f = open('img\\1 计算机概述1.jpg', 'rb')
    img = base64.b64encode(content)
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    json_data = requests.post(request_url, data=params, headers=headers).json()
    words_result = '\n'.join([i['words'] for i in json_data['words_result']])
    print(words_result)

发送请求

# 模拟浏览器 --> 字典数据类型 --> 键:值
headers = {
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 请求链接
url = 'https://www.***.com/p-3282300896.html'
# 发送请求
response = requests.get(url=url, headers=headers)

获取数据、解析数据

# 获取网页数据
html_data = response.text
# 提取sid参数
sid = re.findall('flash_param_hzq:"(.*?)",', html_data)[0]
# 提取名字
name = re.findall('productName:"(.*?)",', html_data)[0]
# 提取页码
num = re.findall('<em>(\d+)</em>页</span>', html_data)[0]
# 构建完整图片链接
content_list = []
for page in range(1, int(num)+1):
    # 字符串格式化方法
    img = f'http://221.122.117.73/docinpic.jsp?sid={sid}&file=3282300896&width=942&pageno={page}'

保存数据, 把文档图片内容保存下来

# 发送请求, 获取二进制数据<图片内容>
img_content = requests.get(url=img, headers=headers).content
words = Content(img_content)
doc.add_paragraph(words)

完整代码+视频步骤详解全部都打包好了,文末名片自己拿哦!

好了,今天的分享就到这结束了,下次见!文章来源地址https://www.toymoban.com/news/detail-565625.html

到了这里,关于Python采集某网站文档,并保存word格式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python案例——采集专栏文章保存成pdf

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 环境使用: python 3.8 运行代码 pycharm 2022.3 辅助敲代码 wkhtmltopdf 软件 找助理邀课老师获取 模块使用: 内置模块 re 正则表达式 第三方模块 需要安装 requests pip install requests 数据请求 parsel pip install parsel 数据解析 pdfkit pip install pdfki

    2024年02月10日
    浏览(42)
  • Python相机自动采集图像,然后模板匹配、自动截取保存图片

    通过python调用相机然后间隔一段时间进行拍摄图片,进行识别提取。 提示:以下是本篇文章正文内容,下面案例可供参考 我的电脑没有相机硬件设备,于是我通过手机在局域网的状态下进行图像传输到电脑上,在这里特别推荐软件:DroidCam Client    建议大家按照情况自行安

    2024年02月12日
    浏览(38)
  • python采集数据保存csv, 文件内容乱码了怎么解决?

    如果你的 Python 程序采集到的数据在保存成 CSV 格式的文件时出现了乱码,那么可尝试以下解决方法: 1. 在打开 CSV 文件时指定编码方式 你可以使用 Python 中的 open() 函数打开 CSV 文件,并在 open() 函数中指定文件编码方式为 CSV 文件原始编码方式。如果 CSV 文件原始编码方式为

    2024年02月16日
    浏览(47)
  • Python读取Word文档内容

    Python读取Word文档内容 在Python中,我们可以使用Python-docx模块来读取Word文档内容。这个模块提供了一种方法,即使用Python代码来读取和编辑Word文档。 安装Python-docx模块 要使用Python-docx模块,我们需要先安装它。可以使用以下命令来安装Python-docx模块: 读取Word文档 我们首先需

    2024年02月07日
    浏览(43)
  • chatgpt赋能python:Python如何打开Word文档?

    Python 是一种强大的编程语言,可以帮助我们完成各种重复性工作,其中包括自动化文件的处理。在这篇文章中,我们将学习如何使用 Python 打开 Word 文档。本文将介绍三种不同的方式:使用 Python 原生模块、使用第三方库 PyWin32 和使用另一种第三方库 python-docx。 Python 原生模块

    2024年02月03日
    浏览(41)
  • 简单的用Python采集股票数据,保存表格后分析历史数据

    字节跳动如果上市,那么钟老板将成为我国第一个世界首富 趁着现在还没上市,咱们提前学习一下用Python分析股票历史数据,抱住粗大腿坐等起飞~ 好了话不多说,我们直接开始正文 环境使用 Python 3.10 解释器 Pycharm 编辑器 模块使用 requests — 数据请求模块 csv - 保存csv表格

    2024年02月05日
    浏览(67)
  • python创建word文档并向word中写数据

            python创建word文档需要用到docx库,安装命令如下:         注意,安装的是python-docx。         使用方法有很多,这里只介绍创建文档并向文档中写入数据。         存在一个csv文件,格式如下:         现在需要读取其中的username和content字段,并按照username和co

    2024年04月14日
    浏览(49)
  • Python+docx实现python对word文档的编辑

            该模块可以通过python代码来对word文档进行大批量的编辑。docx它提供了一组功能丰富的函数和方法,用于创建、修改和读取Word文档。下面是 docx 模块中一些常用的函数和方法的介绍: 安装:pip install docx                  通过遍历  doc.paragraphs  来获取文档中

    2024年02月16日
    浏览(46)
  • Python矩阵数据保存为.csv格式

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 .csv文件 CSV格式的文件的简单保存与读取 保存Array类型数据为.csv格式,代码如下(示例): 需要保存的矩阵文件内容: 保存的文件内容,重新加载与源文件内容一致 以上就是今天要讲的内容,本文仅仅

    2024年02月14日
    浏览(41)
  • 【python脚本系列】python脚本2——PDF转word文档

    只需2行代码,轻松将PDF转换成Word 机器学习算法那些事 2023-05-05 18:58 发表于广东 编辑:数据分析与统计学之美 可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文

    2024年02月02日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包