爬虫案例—表情党图片data-src抓取

这篇具有很好参考价值的文章主要介绍了爬虫案例—表情党图片data-src抓取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

爬虫案例—表情党图片data-src抓取

表情党网址:https://qq.yh31.com

抓取心情板块的图片data-src

爬虫案例—表情党图片data-src抓取,爬虫案例,总结经验,笔记,爬虫,python

爬虫案例—表情党图片data-src抓取,爬虫案例,总结经验,笔记,爬虫,python

由于此页面采用的是懒加载技术,为了节省网络带宽和减轻服务器压力。不浏览的图片,页面不加载,统一显示LOADING…。如下图:

爬虫案例—表情党图片data-src抓取,爬虫案例,总结经验,笔记,爬虫,python

按F12(谷歌浏览器)通过分析,表情图片的真正链接为data-src

爬虫案例—表情党图片data-src抓取,爬虫案例,总结经验,笔记,爬虫,python

通过分析,在搜索框里输入如下的xpath路径,匹配到页面中所有的data-src,如下图:

爬虫案例—表情党图片data-src抓取,爬虫案例,总结经验,笔记,爬虫,python

抓取data-src的源代码如下:

import requests
from lxml import etree

headers= {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

url = 'https://qq.yh31.com/xq/wq/'

res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding
data = res.text

tree = etree.HTML(data)

data_src_lst = tree.xpath('//div[@class="sr"]//dt/a/img/@data-src')
print(data_src_lst)

结果如下图:

爬虫案例—表情党图片data-src抓取,爬虫案例,总结经验,笔记,爬虫,python文章来源地址https://www.toymoban.com/news/detail-795058.html

到了这里,关于爬虫案例—表情党图片data-src抓取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 爬虫案例—抓取找歌词网站的按歌词找歌名数据

    找个词网址:https://www.91ge.cn/lxyyplay/find/ 目标:抓取页面里的所有要查的歌词及歌名等信息,并存为txt文件 一共46页数据 网站截图如下: 抓取完整歌词数据,如下图: 源码如下: 运行结果如下图: 利用协程抓取数据,效率很高。

    2024年01月24日
    浏览(29)
  • 使用分布式HTTP代理爬虫实现数据抓取与分析的案例研究

    在当今信息爆炸的时代,数据已经成为企业决策和发展的核心资源。然而,要获取大规模的数据并进行有效的分析是一项艰巨的任务。为了解决这一难题,我们进行了一项案例研究,通过使用分布式HTTP代理爬虫,实现数据抓取与分析的有效整合。本文旨在分享我们的研究成果

    2024年02月15日
    浏览(41)
  • Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接

    1. 前言 文章内容可能存在版权问题,为此,小编不提供相关实现代码,只是从js逆向说一说到底怎样实现这个的过程,希望能够帮助到那些正在做js逆向相关操作的读者,需要代码的读者单独私信我吧!不过,需要注意的是: 代码仅供学习,不能用于商业活动,望读者切记。

    2024年02月15日
    浏览(54)
  • Python爬虫关于网站上传图片: Content-Type: multipart/form-data; boundary=----WebKitFormBoundary****************

    我们在使用python爬虫, 例如使用requests想服务器发送请求,模拟上传图片的时候会遇到Reqest Headers 中有一个:Content-Type: multipart/form-data; boundary=----WebKitFormBoundary****************,  尝试这从其它返回的接口中也找不到它, 我们也一度怀疑是否是在前端JS中生成的,不要着急! 只是

    2024年02月04日
    浏览(35)
  • java使用htmlunit + jsoup 爬网站图片案例(爬虫学习)

    该文章用于自己学习爬虫使用 目的: 从百度图片中搜索\\\"风景\\\"并下载图片到本地 思路: 使用htmlunit进行模拟用户操作, 并使用jsoup对数据进行解析,获取到需要的数据后,再下载到本地保存 htmlunit官网 jsoup官网 使用谷歌浏览器打开百度图片网站 https://image.baidu.com 输入\\\"风景\\\", 点击

    2024年02月15日
    浏览(29)
  • Hibernate(Spring Data)抓取策略

    本文将深入讨论Hibernate中的抓取策略,介绍不同类型的抓取策略以及它们的使用场景和注意事项。 即时加载是指在查询主实体时立即加载相关联的实体对象。这种策略会在查询时一次性加载所有关联的实体对象,可以减少数据库查询次数。 延迟加载是指在访问关联属性时才

    2024年02月10日
    浏览(51)
  • 《python爬虫练习2》爬取网站表情包

    运行环境: 1.分析: 目标网址:https://www.runoob.com/ 首先想要获取什么就从哪里入手,打开图所在的网页,F12查看代码的内容,此处抓取的是资源文件,爬取中发现ajax类型的文件加载出来的无法知道图片的源地址所以暂时不能用这种方式获取。因此可以生成第一步的代码。

    2024年02月01日
    浏览(31)
  • 基于Django爬虫项目网络表情包爬虫展示系统设计与实现(Pycharm+Python+Mysql)

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,学习后应对毕业设计答辩。 项目配有对应开发文档、

    2024年03月15日
    浏览(35)
  • js修改img的src属性显示变换图片到前端页面,img的src属性显示java后台读取返回的本地图片

    img的src属性是前端用来显示一张图片的来源,一般情况下src最常见是显示项目中resourcesstatic问价夹下的图片,或者显示公网上的图片,如果想要在前端显示本地图片那要怎么处理呢?如果直接用本地图片的地址(例如src=“D:Userstest.jpg”)前端是无法显示的。 img 是空标签,它

    2024年02月14日
    浏览(43)
  • 逆向爬虫进阶实战:突破反爬虫机制,实现数据抓取

    随着网络技术的发展,网站为了保护自己的数据和资源,纷纷采用了各种反爬虫机制。然而,逆向爬虫技术的出现,使得我们可以突破这些限制,实现对目标网站的深入分析和抓取。本文将介绍逆向爬虫进阶实战的一些技巧和代码片段,帮助读者更好地理解和掌握这一技术。

    2024年02月04日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包