【Python_Scrapy学习笔记（一）】Scrapy框架简介

9月前作者：禾戊之昂分类：Toy博客阅读(52) 违法举报

这篇具有很好参考价值的文章主要介绍了【Python_Scrapy学习笔记（一）】Scrapy框架简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Scrapy框架简介

前言

Scrapy 框架是一个用 python 实现的为了爬取网站数据、提取数据的应用框架，使用 Twisted 异步网络库来处理网络通讯，可以高效的完成数据爬取。本文主要介绍 Scrapy 框架的构成与工作原理。

正文

1、Scrapy安装

Windows安装：-m -pip install Scrapy
或使用 PyCharm 可视化界面安装。

2、Scrapy框架构成

爬虫文件Spider：负责数据的解析提取
调度器Scheduler：负责维护请求队列
下载器Downloader：负责发请求获取响应对象
实体管道Item Pipeline：负责处理数据，数据入库
引擎Engine：整个框架的核心，总指挥

3、Scrapy框架工作流程

当整个爬虫项目启动时，由引擎来找到爬虫文件，索要第一批要抓取的url地址；
引擎拿到url地址后，将url地址交给调度器入队列；
调度器将url地址入队列后，再出队列，这个过程在调度器中生成了一个请求指纹；
url地址出队列后，交给引擎；再由引擎交给下载器，下载器只负责发请求获取响应response，拿到响应对象；
下载器将从站点拿到的响应对象交给引擎，引擎拿到响应；
引擎将拿到的响应对象给爬虫文件，解析提取；
爬虫文件解析提取数据后，产生两种数据：一是需要继续跟进的url地址，二是解析后需要存储的数据；
提取出来的数据交给项目管道做数据库入库处理；继续跟进的url地址由引擎交给调度器做入队列操作；
如此循环。

【Python_Scrapy学习笔记（一）】Scrapy框架简介

4、Scrapy框架的两个中间件

中间件相当于过滤器，夹在不同部分之间截获数据流，并进行特殊的加工处理。文章来源地址https://www.toymoban.com/news/detail-421952.html

下载器中间件Downloader Middlewares：请求对象->引擎->下载器，包装请求(随机代理等)
蜘蛛中间件Spider Middlewares：响应对象->引擎->爬虫文件，可修改响应对象属性

到了这里，关于【Python_Scrapy学习笔记（一）】Scrapy框架简介的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【python爬虫】14.Scrapy框架讲解

前两关，我们学习了能提升爬虫速度的进阶知识——协程，并且通过项目实操，将协程运用于抓取薄荷网的食物数据。可能你在体验开发一个爬虫项目的完整流程时，会有这样的感觉：原来要完成一个完整的爬虫程序需要做这么多琐碎的工作。比如，要导入不同功能的模块

2024年02月09日
浏览(49)
python爬虫之Scrapy框架--保存图片（详解）

目录 Scrapy 使用ImagePipeline 保存图片使用图片管道具体步骤安装相关的依赖库创建Scrapy项目配置settings.py 定义Item 编写Spider 运行Spider Scrapy 自定义ImagePipeline 自定义图片管道 Scrapy提供了一个 ImagePipeline ,用来下载图片这条管道，图片管道 ImagesPipeline 提供了方便并具有

2024年02月11日
浏览(45)
Scrapy：Python中强大的网络爬虫框架

在当今信息爆炸的时代，从互联网上获取数据已经成为许多应用程序的核心需求。Scrapy是一款基于Python的强大网络爬虫框架，它提供了一种灵活且高效的方式来提取、处理和存储互联网上的数据。本文将介绍Scrapy的主要特性和优势，以及如何使用它来构建强大的网络爬虫。

2024年02月19日
浏览(62)
Python爬虫开发：Scrapy框架与Requests库

Python爬虫开发中有两个非常流行的工具：Scrapy框架和Requests库。它们各自有自己的优点和适用场景。 Scrapy Scrapy是一个为了爬取网站并提取结构化数据而编写的应用框架，可以非常方便地实现网页信息的抓取。Scrapy提供了多种可配置、可重用的组件，如调度器、下载器、爬虫和

2024年02月19日
浏览(50)
Python爬虫学习笔记（二）————爬虫简介

目录 1.爬虫概念 2.爬虫核心 3.爬虫分类通用爬虫聚焦爬虫 4.反爬手段（1）User‐Agent （2）代理IP （3）验证码访问（4）动态加载网页（5）数据加密 1.爬虫概念通过一个程序，根据Url(http://www.taobao.com)进行爬取网页，获取有用信息。使用程序模拟浏览器，去向服务器发送

2024年02月15日
浏览(40)
【100天精通python】Day45：python网络爬虫开发_ Scrapy 爬虫框架

目录 1 Scrapy 的简介 2 Scrapy选择器 3 快速创建Scrapy 爬虫 4 下载器与爬虫中间件

2024年02月11日
浏览(52)
Python爬虫之Scrapy框架系列（23）——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

先用单独一个项目来使用scrapy_redis，讲解一些重要点！

2024年02月16日
浏览(51)
python-scrapy框架（四）settings.py文件的用法详解实例

settings.py文件是Scrapy框架中用来配置爬取相关设置的文件。在Scrapy中，我们可以通过修改settings.py文件来自定义爬虫的行为，包括设置全局变量、配置下载延迟、配置ua池、设置代理以及其他爬虫相关的配置项。下面是对settings.py文件用法的详细解释和一个实例： 1.设置全局变

2024年02月12日
浏览(45)
python爬虫selenium+scrapy常用功能笔记

访问网址可以看到直观结果 https://bot.sannysoft.com/ 获取页面dom 页面元素获取元素点击 frame跳转获取cookie 给请求添加cookie 点击上传文件退出页面多摘自之前文档 https://blog.csdn.net/weixin_43521165/article/details/111905800 创建项目 scrapy startproject 爬虫项目名字 # 例如 scrapy startproject f

2023年04月20日
浏览(56)
爬虫学习笔记-scrapy爬取电影天堂(双层网址嵌套)

1.终端运行scrapy startproject movie,创建项目 2.接口查找 3.终端cd到spiders,cd scrapy_carhome/scrapy_movie/spiders,运行 scrapy genspider mv https://dy2018.com/ 4.打开mv,编写代码,爬取电影名和网址 5.用爬取的网址请求,使用meta属性传递name ,callback调用自定义的parse_second 6.导入ScrapyMovieItem,将movie对象

2024年02月19日
浏览(50)