scrapy集成selenium

9月前作者：淘淘桃分类：Toy博客阅读(38) 违法举报

这篇具有很好参考价值的文章主要介绍了scrapy集成selenium。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

使用scrapy默认下载器---》类似于requests模块发送请求，不能执行js，有的页面拿回来数据不完整

想在scrapy中集成selenium，获取数据更完整，获取完后，自己组装成 Response对象，就会进爬虫解析，现在解析的是使用selenium拿回来的页面，数据更完整

使用

集成selenium 因为有的页面，是执行完js后才渲染完，必须使用selenium去爬取数据才完
保证整个爬虫中，只有一个浏览器
只要爬取下一页这种地址，使用selenium，爬取详情，继续使用原来的

第一步：在爬虫类中写

from selenium import webdriver
class CnblogsSpider(scrapy.Spider):
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    bro.implicitly_wait(10)
    def close(spider, reason):
        spider.bro.close() #浏览器关掉

第二步：在中间件中文章来源地址https://www.toymoban.com/news/detail-581759.html

 def process_request(self, request, spider):
        # 爬取下一页这种地址---》用selenium，但是文章详情，就用原来的
        if 'sitehome/p' in request.url:
            spider.bro.get(request.url)
            from scrapy.http.response.html import HtmlResponse
            response = HtmlResponse(url=request.url, body=bytes(spider.bro.page_source, encoding='utf-8'))
            return response
        else:
            return None

到了这里，关于scrapy集成selenium的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

python爬虫selenium+scrapy常用功能笔记

访问网址可以看到直观结果 https://bot.sannysoft.com/ 获取页面dom 页面元素获取元素点击 frame跳转获取cookie 给请求添加cookie 点击上传文件退出页面多摘自之前文档 https://blog.csdn.net/weixin_43521165/article/details/111905800 创建项目 scrapy startproject 爬虫项目名字 # 例如 scrapy startproject f

2023年04月20日
浏览(61)
python爬虫实战 scrapy+selenium爬取动态网页

最近学习了scrapy爬虫框架，想要找个目标练练手。由于现在很多网页都是动态的，因此还需要配合selenium爬取。本文旨在记录这次学习经历，如有疑问或不当之处，可以在评论区指出，一起学习。对scrapy不了解的同学可以阅读这篇文章爬虫框架 Scrapy 详解，对scrapy框架介绍的

2024年02月07日
浏览(83)
爬虫学习 Scrapy中间件&代理&UA随机&selenium使用

控制台操作 (百度只起个名 scrapy startproject mid scrapy genspider baidu baidu.com setting.py内运行 scrapy crawl baidu middlewares.py 中间件先看下载器中间件重点在 process_request 在引擎将请求的信息交给下载器之前，自动的调用该方法 process_response… process_exception 异常 (看名就知道了…) spider

2024年03月23日
浏览(62)
python爬虫 scrapy+selenium+webdriver实现鼠标滑动破解阿里云盾快验证

在爬取jianshu文章的时候发现，jianshu竟然买了阿里云的盾块验证！！！很是头疼，虽然说没有其他图片匹配的那么麻烦，但是阿里云的人机验证和算法真的是顶尖的，查阅了多个资料最后没办法，才实现用webdriver模拟鼠标去通过验证首先我们需要安装webdriver驱动和Google Chrom

2024年02月03日
浏览(65)
python爬虫进阶篇：Scrapy中使用Selenium模拟Firefox火狐浏览器爬取网页信息

接着上一篇的笔记，Scrapy爬取普通无反爬、静态页面的网页时可以顺利爬取我们要的信息。但是大部分情况下我们要的数据所在的网页它是动态加载出来的（ajax请求后传回前端页面渲染、js调用function等）。这种情况下需要使用selenium进行模拟人工操作浏览器行为，实现自动化

2024年02月04日
浏览(78)
python爬虫进阶篇：Scrapy中使用Selenium+Firefox浏览器爬取沪深A股股票行情

上篇记录了Scrapy搭配selenium的使用方法，有了基本的了解后我们可以将这项技术落实到实际需求中。目前很多股票网站的行情信息都是动态数据，我们可以用Scrapy+selenium对股票进行实时采集并持久化，再进行数据分析、邮件通知等操作。详情请看上篇笔记 items middlewares setti

2024年02月04日
浏览(66)
爬虫：Scrapy热门爬虫框架介绍

结合自身经验和内部资料总结的Python教程，每天3-5章，最短1个月就能全方位的完成Python的学习并进行实战开发，学完了定能成为大佬！加油吧！卷起来！全部文章请访问专栏：《Python全栈教程（0基础）》再推荐一下最近热更的：《大厂测试高频面试题详解》该专栏对近年

2024年02月13日
浏览(44)
爬虫---scrapy爬虫框架（详细+实战）

活动地址：CSDN21天学习挑战赛 1、基本功能 Scrapy 是一个适用爬取网站数据、提取结构性数据的应用程序框架，它可以应用在广泛领域：Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指

2023年04月22日
浏览(49)
爬虫(四)：Scrapy热门爬虫框架介绍

结合自身经验和内部资料总结的Python教程，每天3-5章，最短1个月就能全方位的完成Python的学习并进行实战开发，学完了定能成为大佬！加油吧！卷起来！全部文章请访问专栏：《Python全栈教程（0基础）》再推荐一下最近热更的：《大厂测试高频面试题详解》该专栏对近年

2024年02月11日
浏览(46)
爬虫框架scrapy基本原理

scrapy是python的爬虫框架，类似于django（python的web框架）。安装： Mac、Linux 执行 pip3 install scrapy ，不存在任何问题 Windows 执行 pip3 install scrapy ，如果安装失败，执行下面步骤：（1）安装wheel（为支持通过文件安装软件）： pip3 install wheel （wheel官网）（2）安装lxml： pip3 insta

2024年02月15日
浏览(51)