PyCharm搭建Scrapy环境

这篇具有很好参考价值的文章主要介绍了PyCharm搭建Scrapy环境。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。



1、Scrapy概述

1.1、Scrapy简介

Scrapy是一个基于Python的开源网络爬虫框架,用于从网页中提取数据。它提供了一套高效、灵活和可扩展的工具,可以帮助开发者快速构建和部署爬虫程序

Scrapy是一个由Python语言开发的适用爬取网站数据、提取结构性数据的Web应用程序框架。主要用于数据挖掘、信息处理、数据存储和自动化测试等。通过Scrapy框架实现一个爬虫,只需要少量的代码,就能够快速的网络抓取

Scrapy基于Twisted,Twisted是一个异步网络框架,主要用于提高爬虫的下载速度。Scrapy使用Twisted异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。Scrapy使用的是非堵塞的异步处理

Scrapy框架具有以下特点:

  • 高性能:Scrapy 采用异步的网络请求和处理机制,能够高效地处理大规模的网页抓取任务

  • 可配置性:Scrapy提供了丰富的配置选项,可以通过配置文件或代码灵活地设置爬虫的行为,包括请求头、请求间隔、并发数等

  • XPath和CSS选择器:Scrapy内置了强大的选择器,支持使用XPath和CSS选择器来定位和提取网页中的数据

  • 中间件和扩展:Scrapy提供了中间件和扩展机制,开发者可以通过编写中间件和扩展来自定义和扩展框架的功能,例如自定义请求处理、数据处理、错误处理等

  • 分布式支持:Scrapy可以与分布式任务队列(如Celery)结合使用,实现分布式爬取和数据处理

  • 数据存储:Scrapy支持将爬取到的数据存储到各种数据存储系统,包括文件、数据库(如MySQL、PostgreSQL)和NoSQL数据库(如MongoDB)等

  • 日志和调试:Scrapy提供了强大的日志和调试功能,可以帮助开发者进行爬虫的调试和错误排查

1.2、Scrapy架构原理

Scrapy框架5大组件(架构):

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

  • Scrapy引擎(Scrapy Engine):Scrapy引擎是整个框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler间的通讯、数据传递等
  • 调度器(Scheduler):网页URL的优先队列,主要负责处理引擎发送的请求,并按一定方式排列调度,当引擎需要时,交还给引擎
  • 下载器(Downloader):负责下载引擎发送的所有Requests请求资源,并将其获取到的Responses交还给引擎,由引擎交给Spider来处理
  • 爬虫(Spider):用户定制的爬虫,用于从特定网页中提取信息(实体Item),负责处理所有Responses,从中提取数据,并将需要跟进的URL提交给引擎,再次进入调度器
  • 实体管道(Item Pipeline):用于处理Spider中获取的实体,并进行后期处理(详细分析、过滤、持久化存储等)

其他组件:

  • 下载中间件(Downloader Middlewares):一个可以自定义扩展下载功能的组件
  • Spider中间件(Spider Middlewares):一个可以自定扩展和操作引擎和Spider间通信的组件

Scrapy的爬取流程为:

  • 引擎从调度器中取出一个链接(URL)用于接下来的抓取
  • 引擎把URL封装成一个请求(Request)传给下载器
  • 下载器把资源下载下来,并封装成应答包(Response)
  • 爬虫解析Response
  • 解析出的实体(Item),交给实体管道进行进一步的处理
  • 解析出的链接(URL),交给调度器等待抓取

Scrapy官网:https://docs.scrapy.org

入门文档:https://doc.scrapy.org/en/latest/intro/tutorial.html

Scrapy中文文档:https://www.osgeo.cn/scrapy/

2、Scrapy环境搭建

2.1、CMD搭建Scrapy环境

1) CMD命令行安装Scrapy:

pip install scrapy

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

安装完成后输入scrapy命令验证:

scrapy

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

2) 在存放爬虫项目的目录下创建爬虫项目:

scrapy startproject ScrapyDemo

CMD切换操作:

F:            # 切盘
cd A/B/...    # 切换目录

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

该命令会在当前目录下生成Scrapy项目:

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

3) 使用PyCharm打开创建的项目,初始项目结构如下:

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

2.2、PyCharm搭建Scrapy环境

1) 新建爬虫项目目录

方式1:使用PyCharm打开本地存放爬虫项目的文件夹(删除main.py

方式2:在已有项目中新建存放爬虫项目的目录

2) 打开Terminal终端,安装Scrapy:

pip install scrapy

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

3) 在Terminal终端创建爬虫项目(方式2需要cd到该目录下):

scrapy startproject ScrapyDemo

pycharm 安装scrapy,# Python,# 网络爬虫,# 自动化,pycharm,scrapy,python

该命令会在当前目录下生成Scrapy项目,项目初始结构与CMD模式下相同

2.3、Scrapy项目结构

无论使用哪种方式搭建,最重要的是爬虫,因此,爬虫文件不可或缺

4) 在spiders文件夹下创建核心爬虫文件(可自定义):文章来源地址https://www.toymoban.com/news/detail-726420.html

到了这里,关于PyCharm搭建Scrapy环境的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python入门】搭建开发环境-安装Pycharm开发工具

    前言 📕作者简介: 热爱跑步的恒川 ,致力于C/C++、Java、Python等多编程语言,热爱跑步,喜爱音乐的一位博主。 📗本文收录于Python零基础入门系列,本专栏主要内容为Python基础语法、判断、循环语句、函数、函数进阶、数据容器、文件操作、异常模块与包、数据可视化等,

    2024年02月04日
    浏览(58)
  • 【Python入门篇】Python开发环境的搭建——安装和配置PyCharm工具

    作者简介: 辭七七,目前大一,正在学习C/C++,Java,Python等 作者主页: 七七的个人主页 文章收录专栏: Python入门,本专栏主要内容为Python的基础语法,Python中的选择循环语句,Python函数,Python的数据容器等。 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖💖 Python程序的开发有

    2024年02月04日
    浏览(53)
  • Python学习笔记(1)--环境搭建,开发工具PyCharm 安装及初步使用

    传送门==B站黑马python入门教程 1.Python环境安装搭建 安装python基础包 首先,打开python 官网 https://www.python.org/ 下载windows版 下载后进行安装 默认下一步 可自定义安装位置,install安装即可 验证安装文件 win+R 输入cmd ,打开命令框,输入python,若看到安装版本,即安装成功 2.hello world 命令

    2024年02月11日
    浏览(58)
  • 搭建 Python 环境 | Python、PyCharm

    计算机能完成的工作: 算术运算 逻辑判断 数据存储 网络通信 …更多的更复杂的任务 以下这些都可以称为 “计算机”: 一台计算机主要由以下这几个重要的组件构成 CPU 中央处理器 :大脑,算术运算,逻辑判断 存储器 :(内存,外存) 存储数据 内存外存 (硬盘等) 区别:

    2024年02月13日
    浏览(45)
  • Python环境和PyCharm搭建教程

    1、访问Python 官网: https://www.python.org/  2、以Windows为例,我们选择一个稳定的版本进行安装,这里需要注意选择和自己操作系统类型一致的安装包,64 位操作系统选择 64-bit/32 位操作系统选择 32-bit,x86表示是 32 位机子/x86-64表示 64 位机子的。 Stable Releases表示:稳定版本;

    2024年04月22日
    浏览(37)
  • python 开发环境(PyCharm)搭建指南

    参考:Python基础教程——搭建Python编程环境 下载 Python Python 下载地址:官网 (1)点击【Downloads】点击【Windows】点击【Python 3.x.x】下载最新版 Python; Python官网下载页面: (2) 勾选【Add python.exe to PYTH 】 点击【Customize installation】,自定义安装位置 点击【OK】,完成安装。

    2024年02月11日
    浏览(46)
  • Scrapy:Python中强大的网络爬虫框架

    在当今信息爆炸的时代,从互联网上获取数据已经成为许多应用程序的核心需求。Scrapy是一款基于Python的强大网络爬虫框架,它提供了一种灵活且高效的方式来提取、处理和存储互联网上的数据。本文将介绍Scrapy的主要特性和优势,以及如何使用它来构建强大的网络爬虫。

    2024年02月19日
    浏览(62)
  • Python 环境搭建,集成开发环境IDE: PyCharm

    今天我要和大家分享一个非常有趣的话题——Python开发环境搭建。在我们的日常生活中,图片处理已经成为了一个非常常见的需求,无论是修图、美颜还是进行一些创意合成,都离不开图片处理。而Python作为一门功能强大的编程语言,在图片处理方面也能够发挥出其独特的优

    2024年02月08日
    浏览(80)
  • 【python基础】搭建PyCharm集成开发环境

    视频介绍 搭建PyCharm集成开发环境 本教程使用的版本号为专业版PyCharm 2022.3.2,如果您是初学者,为了更好的学习本教程,避免不必要的麻烦,请您下载使用与本教程一致的版本号。 官网下载:https://www.jetbrains.com/pycharm/download/other.html 百度网盘:链接:https://pan.baidu.com/s/1bBi

    2024年02月06日
    浏览(68)
  • 跳板机上接口自动化环境搭建实践~Python和Pycharm环境搭建

    公司基于安全策略,所有的本机都不能直连数据库和服务器,均需要通过跳板机来连接数据库和服务器,相应的所有的开发工作、联调工作或者排查问题工作都放在了跳板机上操作 1、用管理员账号登录跳板机 2、从本地拷贝Python安装包到跳板机上 3、管理员身份运行安装Pyt

    2024年02月02日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包