Python获取豆丁文档数据内容, 保存word文档

这篇具有很好参考价值的文章主要介绍了Python获取豆丁文档数据内容, 保存word文档。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

开发环境:

  • python 3.8

  • pycharm

模块使用:

  • requests --> pip install requests

  • re

  • base64

  • docx --> pip install python-docx

第三方模块安装方法:

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)

准备工作

在写代码之前,你需要先在Baidu开发者平台申请权限,

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

步骤如下:

1. 登录百度智能云

  • 没有Baidu账号的注册一个;

  • 第一次进入会有这样一个页面,你自己随意填

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

2. 通过界面右上角进入控制台

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

3. 进入控制台后点击左上角的菜单栏

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

3. 选中产品服务

搜索人脸识别

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

4. 点击创建应用

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

应用名称随便填

接口选择默认

应用归属选个人

应用描述随便填

然后点击立即创建

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

5. 创建完毕后点击返回应用列表

重点点击领取免费资源

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

6. 进行实名认证后领取服务类型里面的所有内容

实名认证需要一定时间

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

7. 领取完毕之后回到应用列表

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

复制API Key和Secret Key里的内容,用于后期的接口认证


👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~

素材、视频教程、完整代码、插件安装教程我都准备好了,直接在文末名片自取就可


Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

代码实现步骤

  1. 发送请求, 模拟浏览器对于 文档页面url地址 发送请求

  2. 获取数据, 获取服务器返回响应数据

  3. 解析数据, 提取我们需要的内容:

    sid参数 / 文档页数 / 文档名称

    构建文档图片链接

  4. 保存数据, 把文档图片内容保存下来

代码展示

# 导入数据请求模块
import requests
# 导入正则模块
import re
import base64
from docx import Document

doc = Document()


def Content(content):
    url = "https://****/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    access_token = response.json()['access_token']
    '''
    通用文字识别(高精度版)
    '''
    request_url = "https://****/rest/2.0/ocr/v1/accurate_basic"
    # 二进制方式打开图片文件
    # f = open('img\\1 计算机概述1.jpg', 'rb')
    img = base64.b64encode(content)
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    json_data = requests.post(request_url, data=params, headers=headers).json()
    words_result = '\n'.join([i['words'] for i in json_data['words_result']])
    print(words_result)

# 模拟浏览器 --> 字典数据类型 --> 键:值
headers = {
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 请求链接
url = 'https://****/p-3282300896.html'
# 发送请求
response = requests.get(url=url, headers=headers)

# 获取网页数据
html_data = response.text
# 提取sid参数
sid = re.findall('flash_param_hzq:"(.*?)",', html_data)[0]
# 提取名字
name = re.findall('productName:"(.*?)",', html_data)[0]
# 提取页码
num = re.findall('<em>(\d+)</em></span>', html_data)[0]
# 构建完整图片链接
content_list = []
for page in range(1, int(num)+1):
    # 字符串格式化方法
    img = f'http://221.122.117.73/docinpic.jsp?sid={sid}&file=3282300896&width=942&pageno={page}'
    # 发送请求, 获取二进制数据<图片内容>
    img_content = requests.get(url=img, headers=headers).content
    words = Content(img_content)
    doc.add_paragraph(words)

doc.save(f'{name}.docx')

正则表达式提取数据内容

  • re.findall(‘数据’, ‘地方’) 调用re模块里面findall方法

    查找所有我们需要的数据内容

尾语

感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

Python获取豆丁文档数据内容, 保存word文档,python爬虫,python,word,开发语言,pycharm

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇文章来源地址https://www.toymoban.com/news/detail-544714.html

到了这里,关于Python获取豆丁文档数据内容, 保存word文档的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【python】使用docx获取word文档的标题等级、大纲等级和编号等级

    在Microsoft Word中: 【标题X】是一个样式,一般来说,【标题1】样式的大纲级别是1级。 大纲级别一般用于页面导航和生成目录。可以右键文字-段落里查看/设置大纲的级别。设置成【x级】后左侧导航栏就会显示。 编号等级就是大家熟知的项目编号,常用于正文。 基本没有一

    2024年02月03日
    浏览(27)
  • Python爬虫——BeautifulSoup,获取HTML中文档,标签等内容

    将复杂的HTML文档转换成一个复杂的树形结构,每个结点都是一个Python对象,所有对象可以分为四种: Tag NavigableString BeautifulSoup Comment 首先要引入该函数,再打开相应的html文件读取其中的内容,在使用BeautiSoup对其进行解析,解析的时候要使用相应类型的解析器html.parser bs当中

    2024年02月06日
    浏览(35)
  • python创建word文档并向word中写数据

            python创建word文档需要用到docx库,安装命令如下:         注意,安装的是python-docx。         使用方法有很多,这里只介绍创建文档并向文档中写入数据。         存在一个csv文件,格式如下:         现在需要读取其中的username和content字段,并按照username和co

    2024年04月14日
    浏览(35)
  • python采集数据保存csv, 文件内容乱码了怎么解决?

    如果你的 Python 程序采集到的数据在保存成 CSV 格式的文件时出现了乱码,那么可尝试以下解决方法: 1. 在打开 CSV 文件时指定编码方式 你可以使用 Python 中的 open() 函数打开 CSV 文件,并在 open() 函数中指定文件编码方式为 CSV 文件原始编码方式。如果 CSV 文件原始编码方式为

    2024年02月16日
    浏览(33)
  • Python — 获取电脑串口数据并保存到txt文件

    打开设备管理器,双击端口设备,点击端口设置,这里面的参数需要与下面代码中的参数保持一致。 注意事项: 1、设置匹配的波特率; 2、设置对应的串口号; 以下是一段Python代码,可以读取 Windows 电脑上串口的数据并将其保存到一个文本文件中: 请注意, 上述代码中的

    2024年02月11日
    浏览(32)
  • 数据爆炸,Python一键获取阿里法拍的爆款商品数据,并保存到数据库!

    阿里法拍是中国大陆一个知名的在线拍卖网站,它提供了各种商品和服务的拍卖、固定价交易和一口价销售。如果您想要从阿里法拍网站中获取商品的信息,比如商品名称、价格、图片等信息,则可以使用Python编写一个代码获取这些数据。 在实现前,请确保您已经安装以下

    2024年02月09日
    浏览(36)
  • 快乐学Python,数据分析之使用爬虫获取网页内容

    在上一篇文章中,我们了解了爬虫的原理以及要实现爬虫的三个主要步骤:下载网页-分析网页-保存数据。 下面,我们就来看一下:如何使用Python下载网页。 浏览器画网页的流程,是浏览器将用户输入的网址告诉网站的服务器,然后网站的服务器将网址对应的网页返回给浏览

    2024年01月17日
    浏览(40)
  • chatgpt赋能python:Python如何打开Word文档?

    Python 是一种强大的编程语言,可以帮助我们完成各种重复性工作,其中包括自动化文件的处理。在这篇文章中,我们将学习如何使用 Python 打开 Word 文档。本文将介绍三种不同的方式:使用 Python 原生模块、使用第三方库 PyWin32 和使用另一种第三方库 python-docx。 Python 原生模块

    2024年02月03日
    浏览(29)
  • Python+docx实现python对word文档的编辑

            该模块可以通过python代码来对word文档进行大批量的编辑。docx它提供了一组功能丰富的函数和方法,用于创建、修改和读取Word文档。下面是 docx 模块中一些常用的函数和方法的介绍: 安装:pip install docx                  通过遍历  doc.paragraphs  来获取文档中

    2024年02月16日
    浏览(28)
  • 【python脚本系列】python脚本2——PDF转word文档

    只需2行代码,轻松将PDF转换成Word 机器学习算法那些事 2023-05-05 18:58 发表于广东 编辑:数据分析与统计学之美 可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文

    2024年02月02日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包