Python爬虫教程：使用requests、wget和urllib3下载图片和PDF文件

这篇具有很好参考价值的文章主要介绍了Python爬虫教程：使用requests、wget和urllib3下载图片和PDF文件。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载
之前的文章有关于更多操作方式详细解答，本篇基于前面的知识点进行操作，如果不了解可以先看之前的文章
Python爬虫（1）一次性搞定Selenium(新版)8种find_element元素定位方式
Python爬虫（2）-Selenium控制浏览器
Python爬虫（3）-Selenium结合pywin32模拟键盘操作
Python爬虫（4）-Selenium模拟鼠标操作

Python爬虫（5）-selenium用显式等待、隐式等待、强制等待，解决反复爬取网页时无法定位元素问题

selenium下载图片和PDF的文件的方式有很多种，可以使用自带的下载方式，也可以使用模拟鼠标右键点击的方式去储存和下载不过这两种方式都不太推荐使用，因为我们的使用

selenium的目的主要是为了做一些爬虫，爬虫多数时候需要下载大量的图片和文件，这里就需要使用其他的方式来进行下载文件

下载前的工作，需要定位好图片的地址
Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载
完成定位之后我们需要获取到图片的地址也就是src

from selenium import webdriver
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
opt = ChromeOptions()            # 创建Chrome参数对象opt.headless = False            # 把Chrome设置成可视化无界面模式，windows/Linux 皆可driver = Chrome(options=opt)driver.get('https://www.pexels.com/zh-cn/photo/931177/')ab = driver.find_element(By.XPATH,'//*[@id="__next"]/main/div/div[2]/div/div/img').get_attribute('src')print(ab)

获取到src之后我们就可以进行下一步操作
Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

1.使用requests下载文件

下载图片

首先导入requests，把定位找到的图片地址传入dowlimg，写入文件，即可将下载好的文件存入本地

import requests
dowlimg = requests.get(ab)open('imgtest.jpeg','wb').write(dowlimg.content)driver.close()

Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

下载PDF文件

下载PDF文件也是一个道理只要你能够通过selenium定位获取到地址，传入给request就能够把文件给下载下来

import requests
url = 'https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf'dowlimg = requests.get(url)open('PDF.pdf','wb').write(dowlimg.content)

2.使用wget下载文件

下载图片

使用wget下载有个麻烦点就是有些网站设置了反爬虫时会出现403拒绝的情况，尝试用了用户代理那些都失败，只能用于下载没有反爬虫的网站图片

import wgeturl = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"wget.download(url,'image.jpeg')

Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

下载PDF文件

import wgeturl = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"wget.download(url,'pdf1.pdf')

Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载

3.使用urllib3下载文件

下载图片

import urllib
url = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"urllib.request.urlretrieve(url, 'img1.jpeg')

下载PDF文件

import urllib
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"urllib.request.urlretrieve(url, 'img1.jpeg')

Python,Python爬虫,Python requests wget urllib3,Python 图片下载,Python PDF文件下载文章来源地址https://www.toymoban.com/news/detail-489011.html

到了这里，关于Python爬虫教程：使用requests、wget和urllib3下载图片和PDF文件的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

Python爬虫教程：使用requests、wget和urllib3下载图片和PDF文件

1.使用requests下载文件

下载图片

下载PDF文件

2.使用wget下载文件

下载图片

下载PDF文件

3.使用urllib3下载文件

下载图片

下载PDF文件

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2