Python爬虫教程:使用requests、wget和urllib3下载图片和PDF文件

这篇具有很好参考价值的文章主要介绍了Python爬虫教程:使用requests、wget和urllib3下载图片和PDF文件。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载
之前的文章有关于更多操作方式详细解答,本篇基于前面的知识点进行操作,如果不了解可以先看之前的文章
Python爬虫(1)一次性搞定Selenium(新版)8种find_element元素定位方式
Python爬虫(2)-Selenium控制浏览器
Python爬虫(3)-Selenium结合pywin32模拟键盘操作
Python爬虫(4)-Selenium模拟鼠标操作

Python爬虫(5)-selenium用显式等待、隐式等待、强制等待,解决反复爬取网页时无法定位元素问题

selenium下载图片和PDF的文件的方式有很多种,可以使用自带的下载方式,也可以使用模拟鼠标右键点击的方式去储存和下载不过这两种方式都不太推荐使用,因为我们的使用

selenium的目的主要是为了做一些爬虫,爬虫多数时候需要下载大量的图片和文件,这里就需要使用其他的方式来进行下载文件

下载前的工作,需要定位好图片的地址
Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载
完成定位之后我们需要获取到图片的地址也就是src

from selenium import webdriver
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
opt = ChromeOptions()            # 创建Chrome参数对象opt.headless = False            # 把Chrome设置成可视化无界面模式,windows/Linux 皆可driver = Chrome(options=opt)driver.get('https://www.pexels.com/zh-cn/photo/931177/')ab = driver.find_element(By.XPATH,'//*[@id="__next"]/main/div/div[2]/div/div/img').get_attribute('src')print(ab)


获取到src之后我们就可以进行下一步操作
Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

1.使用requests下载文件

下载图片

首先导入requests,把定位找到的图片地址传入dowlimg,写入文件,即可将下载好的文件存入本地

import requests
dowlimg = requests.get(ab)open('imgtest.jpeg','wb').write(dowlimg.content)driver.close()


Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

下载PDF文件

下载PDF文件也是一个道理只要你能够通过selenium定位获取到地址,传入给request就能够把文件给下载下来

import requests
url = 'https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf'dowlimg = requests.get(url)open('PDF.pdf','wb').write(dowlimg.content)


2.使用wget下载文件

下载图片

使用wget下载有个麻烦点就是有些网站设置了反爬虫时会出现403拒绝的情况,尝试用了用户代理那些都失败,只能用于下载没有反爬虫的网站图片

import wgeturl = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"wget.download(url,'image.jpeg')


Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

下载PDF文件

import wgeturl = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"wget.download(url,'pdf1.pdf')


Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

3.使用urllib3下载文件

下载图片

import urllib
url = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"urllib.request.urlretrieve(url, 'img1.jpeg')


下载PDF文件

import urllib
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"urllib.request.urlretrieve(url, 'img1.jpeg')


Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载文章来源地址https://www.toymoban.com/news/detail-489011.html

到了这里,关于Python爬虫教程:使用requests、wget和urllib3下载图片和PDF文件的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【已解决】requests 和 selenium对 Urllib3版本冲突

    requests对urllib3要求版本低于1.23,而selenium要求urllib3高于1.26,直接用pip install requests安装的版本是旧的(1.20),最新的为1.28,同时会把你新版本的urllib3删掉,换成1.23,于是无限死循环。。 解决办法:下载最新版的requests 下载链接:https://pypi.org/project/requests/#files 随后一番解压

    2024年02月11日
    浏览(57)
  • 【Python爬虫】ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ‘ssl‘ module is comp

    目录 1.问题描述: 2.问题分析: 3.问题解决: ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the \\\'ssl\\\' module is compiled with \\\'OpenSSL 1.0.2k-fips  26 Jan 2017\\\'. See: https://github.com/urllib3/urllib3/issues/2168 提示 这个错误表明 urllib3 版本 2.0 要求使用 OpenSSL 1.1.1 或更高版本,但当前的 Python

    2024年02月05日
    浏览(46)
  • 关于pycharm在安装requests模块时出现:urllib3 v2.0 only supports OpenSSL 1.1.1+

    原因:是由于urllib3模块的版本过高导致的 解决办法: 1.file-setting-Project:project-python interpreter 2.点击右侧+号,在搜索框中输入urllib3 3.在左侧选中urllib3后,在右下方的specify verison下拉框中选择1.26版本 4.左下角选择install package即可        

    2024年02月12日
    浏览(78)
  • 【python】(十九)python常用第三方库——urllib3

    官方文档:https://urllib3.readthedocs.io/en/stable/ Urllib3是一个功能强大,条理清晰,用于HTTP客户端的Python库,许多Python的原生系统已经开始使用urllib3。Urllib3提供了很多python标准库里所没有的重要特性: 线程安全 连接池管理 客户端 SSL/TLS 验证 支持 HTTP 和 SOCKS 代理 …… 通过 pip

    2024年02月13日
    浏览(83)
  • python 模块urllib3 HTTP 客户端库

    官网文档地址:https://urllib3.readthedocs.io/en/stable/reference/index.html 一、安装 二、基本使用 三、urllib3.request() 发送请求 四、urllib3.PoolManager() 创建和管理连接池,以便在发送多个 HTTP 请求时重用连接 http.request(method,url,body,fields,headers) 发送请求 method(字符串):指定请求的 HTTP 方

    2024年02月11日
    浏览(49)
  • Python爬虫|基础知识点详细汇总(requests、urllib、re、bs4、xpath、PyQuery、jsonpath、多线程、协程、数据保存、selenium)

    1. 请求数据 ① requests (1) 基本使用 参数 对响应内容的操作 (2) Requests进阶:使用Session 为什么要用 Session? Session代表服务器与浏览器的一次会话过程,Session对象存储了特定用户会话所需的信息 例如:一定时间内记录账号密码 (自动登录) 可以加快 requests请求速度 需要客户端登录的

    2023年04月08日
    浏览(56)
  • 5.爬虫必备基础知识(urllib&requests)一

    我们浏览器在输入完网址到我们看到网页的整体内容, 这个过程中究竟发生了些什么? 我们看一下一个浏览器请求的全过程 接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么? 非也~ 这里要介绍一个新的概念 那就是页面渲染数据的过程, 我们常见的页面渲染过

    2024年04月25日
    浏览(42)
  • 【Python 错误解决】 ---- pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool

    1. 错误代码 2. 报错图片 3. 报错分析 大概率是网络问题,pip 提供的网速不足以支撑 backgroundremover 安装。 4. 解决办法 5. 解决结果

    2024年02月06日
    浏览(45)
  • 成功解决wget下载报错 : wget HTTP request sent, awaiting response... 403 Forbidden

    –2023-07-15 02:32:57-- https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.03-Linux-x86_64.sh Resolving mirrors.tuna.tsinghua.edu.cn (mirrors.tuna.tsinghua.edu.cn)… 2402:f000:1:400::2, 101.6.15.130 Connecting to mirrors.tuna.tsinghua.edu.cn (mirrors.tuna.tsinghua.edu.cn)|2402:f000:1:400::2|:443… connected. HTTP request sent, awaiting r

    2024年02月16日
    浏览(42)
  • python报错:ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1

    python报错:ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+ 问题分析 说明:requests包引入了urllib3,而新版本的urllib3 需要OpenSSL 1.1.1+以上版本,否则报错: ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ‘ssl’ module is compiled with ‘OpenSSL 1.0.2k-fips 26 Jan 2017’. See: https://github.c

    2024年02月09日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包