爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库

这篇具有很好参考价值的文章主要介绍了爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.终端运行scrapy startproject scrapy_read,创建项目

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记2.登录读书网,选择国学(随便点一个)

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记3.复制链接(后面修改为包括其他页)

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

 4.创建爬虫文件,并打开

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

 5.滑倒下方翻页处,右键2,点击检查,查看到a标签网址,复制爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

6.修改爬虫文件规则allow(正则表达式),'\d'表示数字,'+'表示多个,'\.'使'.'生效

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

7.在parse_item中编写打印,scrapy crawl read运行爬虫文件

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

8.查看结果,成功打印,说明成功访问

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

9.定义数据结构(爬取的数据)爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

10.读书网检查查看要爬取的数据

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

11.使用xpath获取

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

12.编写代码,打印,成功爬取

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

13.导包,创建book对象,给到管道

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

14.打开管道

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

15.pipelines中编写代码,将数据存储到json文件中,并运行

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记16.数据从第二页开始,缺少第一页数据爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记17.不符合规则,修改起始url爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

18.修改后,数据包含第一页数据爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

19.MySQL创建存储数据的表如下

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

20.settings中填写连接数据库所需的变量,根据自己的数据库填写

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

21.创建管道,编写代码,用来保存数据

        1).建立连接

        2).执行数据插入

        3).关闭连接

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

22.settings中启动管道

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记

23.运行,查看成功存储到数据库

爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库,爬虫,学习,笔记文章来源地址https://www.toymoban.com/news/detail-826154.html

到了这里,关于爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【爬虫】4.3 Scrapy 爬取与存储数据

    目录 1. 建立 Web 网站 2. 编写数据项目类 3. 编写爬虫程序 MySpider 4. 编写数据管道处理类 5. 设置 Scrapy 的配置文件         从一个网站爬取到数据后,往往要存储数据到数据库中,scrapy 框架有十分方便的存储方法,为了说明这个存储过程,首先建立一个简单的网站,然后写

    2024年02月09日
    浏览(39)
  • 网络爬虫丨基于scrapy+mysql爬取博客信息

    本期内容 :基于scrapy+mysql爬取博客信息并保存到数据库中 实验需求 anaconda丨pycharm python3.11.4 scrapy mysql 项目下载地址:https://download.csdn.net/download/m0_68111267/88740730 本次实验实现了:使用Scrapy框架爬取博客专栏的目录信息并保存到MySQL数据库中,实验主要涉及到Python的爬虫技术以

    2024年03月18日
    浏览(48)
  • python爬虫实战 scrapy+selenium爬取动态网页

    最近学习了scrapy爬虫框架,想要找个目标练练手。由于现在很多网页都是动态的,因此还需要配合selenium爬取。本文旨在记录这次学习经历,如有疑问或不当之处,可以在评论区指出,一起学习。 对scrapy不了解的同学可以阅读这篇文章 爬虫框架 Scrapy 详解,对scrapy框架介绍的

    2024年02月07日
    浏览(70)
  • Python爬虫之Scrapy框架系列(23)——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

    先用单独一个项目来使用scrapy_redis,讲解一些重要点!

    2024年02月16日
    浏览(42)
  • 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站

    本次测试案例参考厦门大学数据库实验室 链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建一个名称为“scrapyProject”的工程,如下图所示,Python解释器就选择我们之前已经安装好的 本次测试环境为 Python3.7.6 在“scrapyProject”工程底部打开Terminal窗口(如下图所示),在命令提示

    2024年02月11日
    浏览(39)
  • Python爬虫进阶:使用Scrapy库进行数据提取和处理

    在我们的初级教程中,我们介绍了如何使用Scrapy创建和运行一个简单的爬虫。在这篇文章中,我们将深入了解Scrapy的强大功能,学习如何使用Scrapy提取和处理数据。 在Scrapy中,提取数据主要通过Selectors来完成。Selectors基于XPath或CSS表达式的查询语言来选取HTML文档中的元素。你

    2024年02月09日
    浏览(43)
  • 网络爬虫丨基于scrapy+mysql爬取博客信息并保存到数据库中

    本期内容 :基于scrapy+mysql爬取博客信息并保存到数据库中 实验需求 anaconda丨pycharm python3.11.4 scrapy mysql 项目下载地址:https://download.csdn.net/download/m0_68111267/88740730 本次实验实现了:使用Scrapy框架爬取博客专栏的目录信息并保存到MySQL数据库中,实验主要涉及到Python的爬虫技术以

    2024年01月17日
    浏览(38)
  • python爬虫进阶篇:Scrapy中使用Selenium模拟Firefox火狐浏览器爬取网页信息

    接着上一篇的笔记,Scrapy爬取普通无反爬、静态页面的网页时可以顺利爬取我们要的信息。但是大部分情况下我们要的数据所在的网页它是动态加载出来的(ajax请求后传回前端页面渲染、js调用function等)。这种情况下需要使用selenium进行模拟人工操作浏览器行为,实现自动化

    2024年02月04日
    浏览(54)
  • 初学python爬虫学习笔记——爬取网页中小说标题

    一、要爬取的网站小说如下图 二、打开网页的“检查”,查看html页面 发现每个标题是列表下的一个个超链接,从183.html到869.html 可以使用for循环依次得到: 三、具体代码如下: 第一次学习爬虫,能得出查询结果,心中还是无限的高兴。 不过,还是发现的很多,比如for循环

    2024年02月09日
    浏览(38)
  • Python爬虫之Scrapy框架系列(21)——重写媒体管道类实现保存图片名字自定义及多页爬取

    spider文件中要拿到图片列表并yield item; item里需要定义特殊的字段名:image_urls=scrapy.Field(); settings里设置IMAGES_STORE存储路径,如果路径不存在,系统会帮助我们创建; 使用默认管道则在s

    2024年02月10日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包