Python爬取pexels图片

这篇具有很好参考价值的文章主要介绍了Python爬取pexels图片。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

研究Python爬虫,网上很多爬取pexels图片的案例,我下载下来运行没有成功,总量有各种各样的问题。

作为菜鸟初学者,网上的各个案例代码对我还是有不少启发作用,我用搜索引擎+chatGPT逐步对代码进行了完善。

最终运行成功。特此记录。

运行环境:Win10,Python3.10、Google Chrome111.0.5563.148(正式版本)

 
 

 

 1 import urllib.request
 2 from bs4 import BeautifulSoup
 3 import os
 4 import html
 5 import requests
 6 import urllib.parse
 7 
 8 path = r"C:\Users\xiaochao\pexels"
 9 url_lists = ['https://www.pexels.com/search/book/?page={}'.format(i) for i in range(1, 21)]  #页面范围请自行根据实际情况修改。
10 headers = {
11     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36",
12     "Referer": "https://www.pexels.com/",
13     "Accept-Language": "en-US,en;q=0.9",
14 }
15 
16 for url in url_lists:
17     print(url)
18     req = urllib.request.Request(url, headers=headers)
19     try:
20         resp = urllib.request.urlopen(req)
21     except urllib.error.HTTPError as e:
22         print("HTTPError occurred: {}".format(e))
23         continue
24 
25     html_content = resp.read().decode()
26     soup = BeautifulSoup(html_content, "html.parser")
27 
28     import re
29     pattern = re.compile('"Download" href="(.*?)/?cs=', re.S)
30     matches = re.findall(pattern, html_content)
31     print(matches)
32 
33     if not os.path.exists(path):
34         os.makedirs(path)
35 
36     for match in matches:
37         match_cleaned = match.split('?')[0]    # 去除图片URL地址最后带的“?”号。
38         print(match_cleaned)   # 输出去除图片URL“?”号的地址
39         match_cleaned = html.unescape(match_cleaned)  #解码 HTML 编码字符,将文件链接还原为正常的 URL 格式
40         match_cleaned = urllib.parse.unquote(match_cleaned)   # 对 URL 进行进一步处理,解码URL,确保它的格式正确,包括删除多余的引号和处理特殊字符。
41         match_cleaned = urllib.parse.urljoin(url, match_cleaned)  # 将相对 URL 转换为绝对 URL
42 
43 
44         # 按URL地址后段命名
45         filename = match_cleaned.split("/")[-1]
46         with open(os.path.join(path, filename), "wb") as f:
47             f.write(requests.get(match_cleaned).content)

 文章来源地址https://www.toymoban.com/news/detail-410904.html

到了这里,关于Python爬取pexels图片的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python爬虫开发实战①】使用urllib以及XPath爬取可爱小猫图片

    个人主页 :为梦而生~ 关注我一起学习吧! 专栏 :python网络爬虫从基础到实战 欢迎订阅!后面的内容会越来越有意思~ 往期推荐 : 【Python爬虫开发基础⑦】urllib库的基本使用 【Python爬虫开发基础⑧】XPath库及其基本用法 我们在之前已经有8篇文章讲述基础知识了,下面我们

    2024年02月11日
    浏览(74)
  • Python爬虫之Scrapy框架系列(21)——重写媒体管道类实现保存图片名字自定义及多页爬取

    spider文件中要拿到图片列表并yield item; item里需要定义特殊的字段名:image_urls=scrapy.Field(); settings里设置IMAGES_STORE存储路径,如果路径不存在,系统会帮助我们创建; 使用默认管道则在s

    2024年02月10日
    浏览(87)
  • 《爬虫》爬取页面图片并保存

    title: 《小·意·思》爬取页面图片并保存 date: 2023-08-10 22:12:30 updated: 2023-08-29 17:07:55 categories: 番外:小·意·思 excerpt: 上下标号、标点、运算符、标号、时间相关、语言、货币、音乐、形状符号、其他符号。 comments: false tags: top_image: /images/backimg/SunsetClimbing.png 简单的爬取图片

    2024年02月13日
    浏览(51)
  • 爬虫实例(二)—— 爬取高清4K图片

    大家好,我是 Enovo飞鱼,今天继续分享一个爬虫案例,爬取高清4K图片,加油💪。     目录 前言 增加异常处理 增加代码灵活性 基本环境配置 爬取目标网站 分析网站页面 具体代码实现 图片下载示例 感谢支持🙇‍+👍     上篇内容,我们已经了解并惊叹于5行Python代码的强

    2024年02月21日
    浏览(142)
  • 利用爬虫爬取图片并保存

    1 问题 在工作中,有时会遇到需要相当多的图片资源,可是如何才能在短时间内获得大量的图片资源呢? 2 方法 我们知道,网页中每一张图片都是一个连接,所以我们提出利用爬虫爬取网页图片并下载保存下来。 首先通过网络搜索找到需要的图片集,将其中图片链接复制然

    2024年02月13日
    浏览(36)
  • Java爬虫爬取图片壁纸

    以 sougou 图片为例: https://pic.sogou.com/ JDK17、SpringBoot3.2.X、hutool5.8.24实现Java爬虫,爬取页面图片 开发工具: IDEA2023.2.5 JDK: Java17 SpringBoot: 3.2.x 通过 SpringBoot 快速构建开发环境,通过 Jsoup 实现对网页的解析,并获取想要的资源数据 使用 hutool 工具,将所需要的字符串转成 J

    2024年01月17日
    浏览(46)
  • 六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

    用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了。 第一步:安装requests库和BeautifulSoup库 在程序中两个库的书写是这样的: 由于我使用的是pycharm进行的python编程。所以

    2024年02月08日
    浏览(60)
  • 【python爬虫】闲鱼爬虫,可以爬取商品

    目录 前言 一、介绍 二、爬虫流程 1. 确定并构造URL 2. 发送网络请求 3. 解析HTML并提取数据 4. 保存数据 三、使用代理IP 四、完整代码 五、总结 前言 闲鱼是一个很受欢迎的二手交易平台,但是由于没有开放API,我们需要使用爬虫来获取数据。本文将介绍如何使用Python爬

    2024年02月08日
    浏览(56)
  • 【爬虫】python爬虫爬取网站页面(基础讲解)

    👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 1. 导入必要的库 requests 库用于发送HTTP请

    2024年02月08日
    浏览(45)
  • 【Python 爬虫脚本】Python爬取歌曲

    目标:爬取酷狗音乐 右键--检查 进入网络,查看所有请求,事先先清空历史数据 点击刷新,重新进入页面 找到index请求,在预览中可以看到  play_backup_url:\\\"https://webfs.tx.kugou.com/202308251554/97c6fef48119300dd2a238ee8025c521/v2/409ebc56ea4ba76e58d8c89af8d03b6a/KGTX/CLTX001/409ebc56ea4ba76e58d8c89af8d03b6a.

    2024年01月17日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包