【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois)

这篇具有很好参考价值的文章主要介绍了【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

检查 robot.txt

  • 目的: 大多数的网站都会包含 robot.txt 文件。该文件用于指出使用爬虫爬取网站时有哪些限制。而我们通过读 robot.txt 文件,亦可以最小化爬虫被封禁的可能。
  • 方法: 通过在网站地址后面添加 “/robots.txt”,形成完整的网址,获取该网站对于爬虫的限制信息;
  • 案例:
    例如:我们想要知道 https://www.csdn.net 即 CSDN 官网的爬虫爬取网站的限制,我们可以通过在网址后添加 “/robots.txt”,形成完整网址:https://www.csdn.net/robots.txt,Enter 访问,看到限制信息如下:
    【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois),爬虫,python
    在上图中,我们发现主要包含两个属性:Disallow 以及 User-agent
    • 其中,"User-agent: *" 表示以下所有限制 Disallow 适用于所有的网络爬虫。
    • "Disallow: /scripts" 表示不允许任何网络爬虫访问网站上的 /scripts 目录及其下的内容。这意味着爬虫不应该抓取和索引这个目录中的任何内容。

而在访问 baidu 的 robots.txt 文件时,会发现限制不同:

【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois),爬虫,python

我们提取出第一段解释一下限制信息:

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

这段 robots.txt 文件中的内容针对百度搜索引擎的爬虫(Baiduspider)定义了一系列规则,指示哪些页面或目录不应该被该搜索引擎的爬虫访问和抓取。这些规则的含义如下:

  • User-agent: Baiduspider:这条规则定义了适用于百度搜索引擎爬虫(Baiduspider)的规则。
  • Disallow: /baidu:这表示不允许百度爬虫访问网站上的 /baidu 目录及其下的内容。
  • Disallow: /s?:这表示不允许百度爬虫访问类似于 /s? 这样的路径,通常这种路径会包含查询参数。
  • Disallow: /ulink?Disallow: /link?:这表示不允许百度爬虫访问以 /ulink? 或 /link? 开头的路径,同样是限制查询参数的访问。
  • Disallow: /home/news/data/:这表示不允许百度爬虫访问 /home/news/data/ 目录下的内容。
  • Disallow: /bh:这表示不允许百度爬虫访问 /bh 这个路径。

充分了解如何检查网站爬虫限制后,我们下一步


估算网站大小

  • 目的: 对于目标网站大小的估算,会影响我们判断是否采用串行下载还是分布式下载。对于只有数百个 URL 的网站,效率没有那么重要,只需要串行下载即可,但是对于数百万个网页的网站,则需要我们使用分布式下载;

  • 方法: 而判断采用串行下载还是分布式下载的第一步,则是对网站的大小做好估算。通过访问 Google 高级搜索网站:https://www.google.com/advanced_search

    【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois),爬虫,python

    通过 “高级搜索” 搜索关键字段,如上图下图所示,关于 “理财” 字段全网共有 82,200,000 条结果,即 82,200,000 个网页;

    【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois),爬虫,python
    所以根据结果,我们对于 “理财” 信息的爬取,必须通过分布式下载,而非串行下载,因为网站页数数量过大。

    但是如果我们任务比较紧急,我们只需要获取 baidu 上所有关于 “理财” 字段的网页信息,我们在上述的高级搜索中添加条件即可:site:www.baidu.com,如下图所示:

    【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois),爬虫,python
    如此筛选,我们发现只有 69,000 条结果,而非上千万条,此时,我们所需时间将大大减少。


识别网站所用技术

  • 目的: 网站使用的不同技术,不同框架构建,会对我们如何爬取网站数据有影响。例如,Webpy 框架相对而言比较容易抓取;但是如果改用 AngularJS 构建网站,此时网站内容为动态加载,爬取难度上升;而如果网站使用 ASP.NET 技术,当我们爬取网站时,就必须使用到会话管理和表单提交了。而这些技术与如何爬取的不同方法,将在后续中逐渐阐述出,本节目标为如何得知网址到底使用了什么技术。

  • 方法: builtwith 可以检查网站构建的技术类型;

    pip install builtwith
    
    import builtwith
    builtwith.parse("www.baidu.com")
    

    但是近些年对于爬虫的限制,导致 builtwith.parse() 函数在很多网站不可用,平替的暂时最好方法,是通过网站:https://www.wappalyzer.com/ 进行查看,但是好像需要付费。


寻找网站的所有者

  • 目的: 当然,如何需要找到网站的所有者并与之联系,我们可以通过使用 WHOIS 协议查询域名的注册者是谁。

  • 方法: python 有针对协议的封装库,具体方案为我们首先:

    pip install python-whois
    
    import whois
    print(whois.whois('www.csdn.net'))
    

    结果为:
    【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois),爬虫,python

  • domain_name:列出了域名的主要名称和规范名称,这两者在大小写上略有不同,但指向同一个域名。在这里,主要名称是 “CSDN.NET”,规范名称是 “csdn.net”。

  • registrar:这是域名的注册商或注册服务提供商,即负责管理域名注册的公司。在这里,注册商是 “Alibaba Cloud Computing (Beijing) Co., Ltd.”,这是阿里云计算有限公司。

  • whois_server:这是用于查询域名信息的 WHOIS 服务器。在这里,WHOIS 服务器是 “grs-whois.hichina.com”。

  • updated_date:这是域名信息的最近更新日期。在这里,最近更新的日期是 “2023-01-03 02:19:20”。

  • creation_date:这是域名创建的日期。在这里,域名创建的日期是 “1999-03-11 05:00:00”。

  • expiration_date:这是域名的到期日期。在这里,域名到期的日期是 “2024-03-11 04:00:00”。

  • name_servers:这列出了域名使用的名称服务器(DNS 服务器),它们负责将域名解析为 IP 地址。在这里,有两个名称服务器:“VIP3.ALIDNS.COM” 和 “VIP4.ALIDNS.COM”。

  • status:这个字段列出了域名的状态信息,使用了ICANN定义的状态代码。在这里,状态是 “clientTransferProhibited” 和 “clientUpdateProhibited”,表示在域名的传输和更新方面受到限制。

  • emails:列出了用于与域名注册信息相关问题联系的电子邮件地址。在这里,联系邮箱是 “DomainAbuse@service.aliyun.com”,这是阿里云的服务邮箱。

  • dnssec:这是指定域名是否启用了 DNSSEC(域名系统安全扩展)。在这里,域名的 DNSSEC 设置是 “unsigned”,即未启用。

  • state:这个字段提供了域名注册人所在的州或地区。在这里,注册人所在地是 “bei jing”,即北京。

  • country:这个字段提供了注册人所在的国家/地区。在这里,注册人所在国家是 “CN”,即中国。

这些信息提供了关于域名注册和管理的详细信息,包括注册商、注册人所在地、到期日期等等。


上述内容即关于网站的背景调研方法;文章来源地址https://www.toymoban.com/news/detail-648788.html

到了这里,关于【爬虫】P1 对目标网站的背景调研(robot.txt,advanced_search,builtwith,whois)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • robots.txt 如何禁止蜘蛛(百度,360,搜狗,谷歌)搜索引擎获取页面内容

    什么是蜘蛛抓取 搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或

    2024年02月14日
    浏览(48)
  • 【Nuxt】04 Nuxt2-SEO: sitemap.xml、seo优化、robots.txt

    1 SiteMap设置 环境准备 注意生成sitemap依赖于@nuxtjs/sitemap,并且需要用axios进行请求,不要使用@nuxtjs/axios,不然会报错 sitemap.xml配置 在nuxt.config.js中配置下面的内容 在static/sitemap.js中配置下面的内容 在nuxt.config.js中配置下面的内容 2 robots.txt协议 在nuxt项目的static文件夹下,配置

    2024年02月07日
    浏览(41)
  • WPF开发txt阅读器7:自定义文字和背景颜色

    除了字体、字体大小之外,文字和背景颜色也会影响阅读观感,其设置方法与选择字体如出一辙,都通过combobox控件来选择。故而在阅读设置里面添加 考虑到C#中封装的大多数颜色,其实我们都不太认识,为了更加直观,故而在 ComboBox 中的每个选项都赋上对应的颜色,其对应

    2024年02月08日
    浏览(44)
  • 3D目标检测算法调研&FCOS/FCOS3D/FCOS3D++算法介绍

    一、综述 3D检测背景 二维目标检测算法能识别物体的类别、平面坐标以及边长,是计算机视觉中的一个基本问题。但是对于自动驾驶来说,二维信息还不足以让汽车充分感知三维立体的真实世界,当一辆智能汽车需要在道路上平稳、安全地行驶时,它必须能感知到周围物体精

    2024年02月15日
    浏览(28)
  • 〖Python网络爬虫实战⑱〗- 数据存储之TXT纯文本

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月24日
    浏览(39)
  • Python 网络爬虫 数据的存储(一):TXT 文本文件存储:

    提取到数据后, 接下来就是存储数据了, 数据的存储形式多种多样, 其中最简单的一种就是将数据直接保存为文本文件, 例如:txt,  json, csv 等, 还可以将数据保存到数据库中, 如关系型数据库 MySQL, 非关系型数据库 MongoDB, Redis等, 除了这两种, 也可以直接把数据存

    2024年02月03日
    浏览(35)
  • 关于目标检测任务中,YOLO(txt格式)标注文件的可视化

    本文是针对yolo标注格式txt文件的可视化脚本介绍  如果是VOC格式的xml文件,参考:关于目标检测任务中,XML(voc格式)标注文件的可视化 代码比较简单, 50行这样 。。。。 下面是代码的目录结构,1.jpeg 是数据图像,1.txt是对应的相对坐标信息和索引类别 result.png 是保存的绘制

    2024年02月03日
    浏览(56)
  • YOLO目标检测——棉花病虫害数据集+已标注txt格式标签下载分享

    实际项目应用 :棉花病虫害防治 数据集说明 :棉花病虫害检测数据集,真实场景的高质量图片数据,数据场景丰富 标签说明 :使用lableimg标注软件标注,标注框质量高,含voc(xml)、coco(json)和yolo(txt)三种格式标签,分别存放在不同文件夹下,可以直接用于YOLO系列的目标检测

    2024年02月09日
    浏览(40)
  • 数据隐私保护:网站文章采集txt事件引发的用户隐私安全风险

    近期,以“网站文章采集txt”为名义的企业因涉嫌非法收集用户数据而掀起一阵公众争议。该事件再度聚焦于数据隐私保护的议题。接下来,本文将深度剖析这一问题的实质。 1.采集行为遭到质疑 据悉,网站文章采集txt公司因涉嫌非法获取用户信息及进行商业利用而遭受指控

    2024年04月08日
    浏览(45)
  • 目标检测实例分割数据集转换:从XML和JSON到YOLOv8(txt)

            如果大家想要了解关于yolov8的其他任务和相关内容可以点击这个链接,我这边整理了许多其他任务的说明博文,后续也会持续更新,包括yolov8模型优化、sam等等的相关内容。 YOLOv8(附带各种任务详细说明链接) 源码下载地址: XMLJSON 目标检测、实例分割标签转换

    2024年02月03日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包