网络爬虫-----爬虫的分类及原理

这篇具有很好参考价值的文章主要介绍了网络爬虫-----爬虫的分类及原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

爬虫的分类

1.通用网络爬虫:搜索引擎的爬虫

2.聚焦网络爬虫:针对特定网页的爬虫

3.增量式网络爬虫

4.深层网络爬虫

通用爬虫与聚焦爬虫的原理

通用爬虫:

聚焦爬虫:


爬虫的分类

网络爬虫按照系统结构和实现技术,大致可分为4类,即通用网络爬虫聚焦网络爬虫增量网络爬虫深层次网络爬虫。

1.通用网络爬虫:搜索引擎的爬虫

        比如用户在百度搜索引擎上检索对应关键词时,百度将对关键词进行分析处理,从收录的网页中找出相关的再根据一定的排名规则进行排序后展现给用户,那么就需要尽可能多的互联网的优质网页。

        从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。

2.聚焦网络爬虫:针对特定网页的爬虫

        也叫主题网络爬虫,爬取的 目标网页定位在与主题相关的页面中 ,主要为某一类特定的人群提供服务,可以节省大量的服务器资源和带宽资源。聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

比如要获取某一垂直领域的数据或有明确的检索需求,此时需要过滤掉一些无用的信息。

例如:那些比较价格的网站,就是爬取的其他网站的商品。

3.增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler),所谓增量式,即增量式更新。增量式更新指的是再更新的时候只更新改变的地方,而为改变的地方则不更新,所以该爬虫只爬取内容发生变化的网页或者新产生的网页。比如:招聘网爬虫

4.深层网络爬虫

深层网络爬虫(Deep Web Crawler),首先,什么是深层页面?

在互联网中,网页按存在方式划分为表层页面和深层页面。所谓表层页面,指的是不需要提交表单,使用静态的链接能够到达的静态页面;而深层页面是需要调教一定的关键词之后才能获取的页面。在互联网中,深层页面数量往往比表层页面多得多。

深层网络爬虫主要由URL列表、LVS【虚拟服务器】列表、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。

后面我们主要学习聚焦爬虫,聚焦爬虫学会了,其他类型的爬虫也就能轻而易举的写出来

通用爬虫与聚焦爬虫的原理

通用爬虫:

第一步:抓取网页(url)

深层网络爬虫,网络爬虫,爬虫,python,网络

  1. start_url发送请求,在获取响应解析;

  2. 从响应解析中获取到了需要的新的url,将这些URL放入待抓取URL队列;

  3. 取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。

  4. 分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环....

第二步:数据存储

搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

  • 提取文字

  • 中文分词

  • 消除噪音(比如版权声明文字、导航条、广告等……)

  • 索引处理

  • 链接关系计算

  • 特殊文件处理

  • ....

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

第四步:提供检索服务,网站排名

搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。

聚焦爬虫:

深层网络爬虫,网络爬虫,爬虫,python,网络

第一步:start_url 发送请求

第二步:获取响应(response)

第三步:解析响应,若响应中有需要的新的url地址,重复第二步;

第四步:提取数据

第五步:保存数据

通常,我们会把获取响应,解析放在一个步骤中完成,所以说,聚焦爬虫的步骤,通俗的来讲一共四步

爬虫的基本分类和原理就介绍到这里了,我们下一期再见!

分享一张壁纸: 深层网络爬虫,网络爬虫,爬虫,python,网络文章来源地址https://www.toymoban.com/news/detail-722024.html

到了这里,关于网络爬虫-----爬虫的分类及原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 〖Python网络爬虫实战④〗- 代理的基本原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月08日
    浏览(32)
  • 〖Python网络爬虫实战㉜〗- 协程基本原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,订阅本专栏前必读关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明 作者

    2024年02月16日
    浏览(33)
  • 〖Python网络爬虫实战⑨〗- 正则表达式基本原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                  python项目实战                 Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月15日
    浏览(79)
  • “new出对象“原理的深层解密

    🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏1: 🍔🍟🌯C语言初阶 🐻推荐专栏2: 🍔🍟🌯C语言进阶 🔑个人信条: 🌵知行合一 🍉本篇简介::讲解C++中的有关内存管理知识,如何new出对象? 金句分享: ✨如果事与愿违,请相信另有安排.✨ 讲解 C++ 中有关 new 的知识,与 mallo

    2024年02月13日
    浏览(28)
  • 深层神经网络

    目录 1、深层网络中的前向传播 2、核对矩阵中的维数 3、使用前向、后向传播函数搭建深层神经网络 4、参数和超参数 一个训练样本 x  前向传播 第一层需要计算 𝑧 [1] = 𝑤[1]𝑥 + 𝑏 [1],𝑎 [1] = 𝑔 [1] (𝑧 [1] )(𝑥可以看做 𝑎 [0] ) 第二层需要计算𝑧 [2] = 𝑤[2]𝑎 [1

    2024年02月09日
    浏览(30)
  • [爬虫]1.1.2 网络爬虫的工作原理

    网络爬虫(Web Crawler),也被称为网页蜘蛛(Spider),是一种用来自动浏览互联网的网络机器人。其主要目标通常是为搜索引擎创建复制的网页内容,但它们也可以被用于其他目的,比如数据挖掘。 现在,我们一起来深入理解一下网络爬虫的工作原理。整个过程可以被大致分

    2024年02月16日
    浏览(36)
  • 神经网络分类算法原理详解

    目录 神经网络分类算法原理详解 神经网络工作流程 反向传播算法 1) 反向传播原理

    2024年02月12日
    浏览(33)
  • 《C++ Core Guidelines解析》:揭示现代C++最佳实践的深层原理

       本书旨在深入解析C++ Core Guidelines,这是C++社区中权威的编程指南。我们将探索其中所包含的现代C++最佳实践,从底层原理和设计理念角度剖析其背后的思想 。通过对Guidelines的逐条解析和实例说明,读者将深入理解如何编写更安全、高效和可维护的C++代码。本文旨在为

    2024年02月09日
    浏览(39)
  • 网络爬虫之HTTP原理

    ** URI的全称Uniform Resource Identifier ,即 统一资源标志符 。URL的全称Uniform Resource Locator 即 统一资源定位符 。 URL是URI的子集,也就是每一个URL就是URI,但是每一个URI不一定是URL,URI还有一个子类叫URN,它的全称Universal Resource Name- 统一资源名称 ,URN只命名资源而不指定资源位置

    2024年04月26日
    浏览(29)
  • 网络爬虫基本原理的介绍

    网络爬虫是一种计算机程序,它通过网络请求从不同的服务器收集和抓取信息,并存储在本地文件或数据库中。 网络爬虫的基本原理主要包含以下几个部分: 首先,选择爬行目标并获得初始URL,然后下载并解析这个URL,接着,根据提取出的新URL,继续进行重复下载和解析。

    2024年01月25日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包