Python爬虫---Scrapy架构组成-Toy模板网

这篇具有很好参考价值的文章主要介绍了Python爬虫---Scrapy架构组成。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Scrapy是一个Python编写的开源网络爬虫框架，它由五大核心组件构成：引擎（Engine）、调度器（Scheduler）、下载器（Downloader）、爬虫（Spider）和实体管道（Item Pipeline）。

引擎（Engine）：它是Scrapy的核心，负责控制整个爬虫流程的运行，包括调度器、下载器和管道等组件的协调工作。
调度器 (Scheduler)：它是一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址，以避免做无用功。用户可以根据自己的需求定制调度器。
下载器 (Downloader)：它是所有组件中负担最大的，用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的。
爬虫（Spider）：爬虫是Scrapy抓取网页并从中提取数据的程序。用户可以编写自己的爬虫程序来抓取特定网站的数据。
实体管道 (Item Pipeline)：它的主要任务是处理从爬虫中提取出来的数据，对数据进行清洗和存储。

scrapy工作原理：

1、引擎向spiders要url
2、引擎将要爬取的url给调度器
3、调度器会将url生成请求对象放入到指定的队列中
4、从队列中出队一个请求
5、引擎将请求交给下载器进行处理
6、下载器发送请求获取互联网被据
7、下载器将数据返回给引肇
8、引擎将数据再次始到spiders
9、spiders通过xpath解析该数据，得到数据或者url
10、spiders将数据或url给到引擎
11、引擎判断是数据还是url，是数据，交给管道(item pipeline)处理，是ulr交给调度器处理
文章来源地址https://www.toymoban.com/news/detail-795320.html

到了这里，关于Python爬虫---Scrapy架构组成的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！