Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?

这篇具有很好参考价值的文章主要介绍了Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、 引言

小屌丝:鱼哥, 我最近在练习写爬虫, 你有没有什么便捷的方式…
小鱼:比如呢?
小屌丝:比如,一句话就可以搞得定爬取整个网站。
小鱼:我不是写过挺多的爬虫案例嘛,你咋还问这个问题,
小屌丝:你写的哪些教程,像我这种比较懒散的人,不适用!
小鱼:我擦~ ~ 你这…
小屌丝:鱼哥,你就像这篇《只用1行代码就下载全网视频》,就一行代码, 我保证妥妥的会。
小鱼:Let me 想一下。
Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?

2、Scrapeasy

按照小屌丝的想法, 我想到了一个库:Scrapeasy
小屌丝:这是不是第三方库。
小鱼:必须的,python自带库,能有这么强大的功能吗?
Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?

2.1 简介

2.1.1 Scrap

关于Scrapeasy 大家可能了解的不多,
但是 Scrap 爬虫大佬肯定了解。
那什么是Scrap呢?

Scrapy

Scrapy是一个功能强大的网络爬虫类库,通过命令pip install scrapy进行安装,爬取的海量数据可以通过MongoDB进行存储。

我上一个架构图:

Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?
关于Scrap的其他功能,
可以移步 Scrap官网进行阅读,这里不做过多介绍。

2.1.2 Scrapeasy

我们再来了解 Scrapeasy。
Scrapeay 是Python的一个第三方库,主要功能:

  • 可以抓取网页数据;
    • 从单网页提取数据;
    • 多网页提取数据;
  • 可以从PDF和HTML表格中提取数据;

听着是很牛的样子,
接下来,我们就去代码中实践,看看到底有多牛。

2.2 安装

涉及到第三方库,肯定就需要安装
老规矩,pip 安装

pip install scrapeasy

其它安装方式,直接看这两篇:

  • Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!
  • Python3:我低调的只用一行代码,就导入Python所有库!

2.3 代码示例

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-10-31
# @Author : Carl_DJ

'''
实现功能:
    通过scrapeasy 来实现爬取数据

'''

from scrapeasy import Website,Page

#创建网站对象

#这里我就以我博客的地址为例子
webs = Website("https://blog.csdn.net/wuyoudeyuer?type=blog")

#获取所有子链接
urls = webs.getSubpagesLinks()
#输出信息
print(f'打印所有链接信息:{urls}')


#查找图片

images = webs.getImages()

print(f'打印所有的图片信息:{images}')

#下载图片
webs.download('img','./data')

#下载pdf
webs.download('pdf','./data')


#获取链接
main_urls = webs.getLinks(intern=False,extern=False,domain=True)

#获取链接域
domain = webs.getLinks(intern=False,extern=True,domain=False)

# 下载其他类型的文件
cal_urls = webs.get("php")


解析

  • 下载所有链接: getSubpagesLinks() 方法;
  • 查找图片:getImages()方法;
  • 下载:webs.download()方法;
  • 下载其他格式文件:get(“文件类型”);

3、总结

看到这里,今天的分享差不多就该结束了。
今天主要是针对scrapeasy这个库进行简单的分享。
学会scrapeasy,你算是迈入的爬虫的 门槛。
其实关于爬虫,我也写过一些教程和案例,例如:

  • Python3:我只用1行代码就下载全网视频,我被我的才华和颜值征服了!!
  • Python3,20行代码,通过微信电脑版爬取朋友圈数据,老板再也抓不到我上班看手机了!!!
  • Python3,多线程爬完B站UP主的视频弹幕及评论,我飘了~ ~ ~
  • Pyhotn3,爬取B站up主的信息!

这里就不过多列举了,更多的示例,可以看小鱼的爬虫实战专栏的

我是小鱼

  • CSDN博客专家
  • 51Testing认证讲师
  • 金牌面试官
  • 商务合作|面试培训|职场规划,可以扫码咨询

关注我,带你学习Python领域更多更专业的技能。文章来源地址https://www.toymoban.com/news/detail-450298.html

到了这里,关于Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一个简单的Python网络爬虫教程

    网络爬虫是一种自动获取网页内容的程序,它可以从互联网上的网站中提取数据并进行分析。本教程将带您逐步了解如何使用 Python 构建一个简单的网络爬虫。 注意:在进行网络爬虫时,请遵守网站的使用条款和法律法规,避免对目标网站造成不必要的负担。 步骤 1:设置环

    2024年02月10日
    浏览(48)
  • 如何用Python实现一个简单的爬虫?

    作为一名程序员,我深知爬虫技术在现代互联网领域中的重要性。因此,今天我来分享一下如何用Python实现一个简单的爬虫。 简单来说,爬虫就是一种自动化程序,通过网络协议来获取特定网站的信息,例如图片、文字、视频等等。这些信息可以是公开数据,也可以是需要用

    2024年02月07日
    浏览(43)
  • Python(request)爬虫有多强大?

    requests是Python中的一种HTTP客户端库,用于发送HTTP请求并获取服务器响应。使用requests库可以轻松地进行常见的HTTP操作,如GET、POST、PUT、DELETE等,支持HTTPS和HTTP连接以及摘要验证、基本认证等身份验证方式。 因此,Python的requests库是一个很棒的选择,如果您需要编写一个简单

    2024年02月09日
    浏览(37)
  • Python(request)爬虫有多强大

    Python 的 requests 库是一个非常强大的网络爬虫工具,可以帮助开发人员快速,高效地从各种网站获取信息并处理数据。以下是 requests 库的一些强大功能:   1. 简单易用:requests 库的 API 设计合理,易于学习和使用。使用 requests 库,没有太多的编码门槛,几乎可以处理页面上任

    2024年02月11日
    浏览(34)
  • 【一个超简单的爬虫demo】探索新浪网:使用 Python 爬虫获取动态网页数据

    可以实战教爬虫吗,搭个环境尝试爬进去。尝试收集一些数据 一位粉丝想了解爬虫,我们今天从最基础的开始吧! 本文将介绍如何使用 Python 爬虫技术爬取新浪网首页的内容。新浪网作为一个内容丰富且更新频繁的新闻网站,是理解动态网页爬取的绝佳例子。 首先,确保你

    2024年02月04日
    浏览(55)
  • 用python从零开始做一个最简单的小说爬虫带GUI界面(2/3)

    目录 前一章博客 前言 主函数的代码实现 逐行代码解析 获取链接 获取标题 获取网页源代码 获取各个文章的链接 函数的代码 导入库文件 获取文章的标题 获取文章的源代码 提取文章目录的各个文章的链接 总代码 下一章内容 用python从零开始做一个最简单的小说爬虫带GUI界面

    2024年02月11日
    浏览(46)
  • 用python从零开始做一个最简单的小说爬虫带GUI界面(1/3)

    目录 下一章内容 PyQt5的配置  设置软件的快捷启动方式 1.        用于设计界面的程序 2.        将Qt Designer设计出来的ui文件转化为py文件 3.        可以把py文件打包成可执行的exe文件 4.        将ico图片放在qrc文件中,再将qrc文件转换成py文件,用于小工具的图

    2024年02月12日
    浏览(52)
  • 用python从零开始做一个最简单的小说爬虫带GUI界面(3/3)

    目录 上一章内容 前言 出现的一些问题 requests包爬取小说的不便之处 利用aiohttp包来异步爬取小说 介绍 代码 main.py  test_1.py test_3.py 代码大致讲解 注意 系列总结 用python从零开始做一个最简单的小说爬虫带GUI界面(2/3)_木木em哈哈的博客-CSDN博客 前一章博客我们讲了怎么通过

    2024年02月11日
    浏览(45)
  • python采集高德地图上商家信息代码(亲测OK)

    项目场景:我需要采集本地的商户信息,获得相关的行业信息数据,分析一下。 我之前有想过从企查查拿企业信息,但是我想获得更多的个体商户信息,想对当前城市做一个数据统计,分析出到底哪一行业更多,更有热度。然后可以帮我去定位到如果我去开一家店,选择什么

    2024年02月12日
    浏览(44)
  • 一个简单的Python樱花飘落动画代码

    以下是一个简单的Python樱花飘落动画代码示例: 这个示例代码将在控制台中显示一个樱花飘落的动画效果,使用了 ANSI Escape Codes 来控制颜色。请注意,这段代码可能在某些操作系统上无法正常运行,因为不同的操作系统支持的 ANSI Escape Codes 可能不同。

    2024年02月11日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包