网络爬虫学习笔记 1 HTTP基本原理

这篇具有很好参考价值的文章主要介绍了网络爬虫学习笔记 1 HTTP基本原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HTTP原理

      ~~~~~       HTTP(Hyper Text Transfer Protocol,超文本传输协议)是一种使用最为广泛的网络请求方式,常见于在浏览器输入一个地址。

1. URI和URL

  • URL(Universal Resource Locator,统一资源定位器)
  • URI(Uniform Resource Identifier,统一资源标识符)
  • URL 是 URI 的子集,URI还包括一个子类 URN(Universal Resource Name,统一资源名称)
  • URI 可被视为定位符URL、名称URN或两者兼备
  • URN 定义某事物的身份,URL提供查找该事物的方法
  • URN 仅用于命名,而不指定地址
    注: \color{red}{{注:}} 注:在目前互联网中,URN 使用很少,几乎都是 URI 和 URL ,所以一般网页可以称URL或URI

2. 超文本

  • 浏览器中的网页是由超文本(Hypertext)解析而成
  • 网页源代码是一系列HTML代码里面包含一系列标签(如 img 显示图片、p 显示段落),浏览器解析这些标签后形成了我们平时看到的网页
  • 网页的源代码比起普通文本能够描述更多的内容,包括网页的样式、网页的构成等,这些网页的源代码HTML就被称为超文本

3. HTTP和HTTPS

  • HTTP(Hyper Text Transfer Protocol,超文本传输协议)是用于从网络传输超文本数据本地浏览器的传输协议,它能保证高效而准确地传送超文本文档
  • HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer,超文本传输安全协议)是以安全为目标的 HTTP 通道,是HTTP的安全版,它在普通的 HTTP 下加入TLS (TransportLayer Security,传输层安全协议)
  • TLS 是为网络通信提供安全及数据完整性的一种安全协议。
  • HTTPS的安全基础是SSL,通过它传输的内容都是 SSL加密的,主要作用有两种
    • 建立一个信息安全通道,保证数据传输的安全
    • 确认网站的真实性,凡是使用 HTTPS 的网站都可以通过单击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过 CA 机构颁发的安全签章来查询
  • 一些网站虽然使用HTTPS 协议,但还是会被浏览器提示不安全,如在Chrome 浏览器中打开链接,它会提示“您的连接不是私密连接”
    • 原因是某些网站的证书是不被官方机构认可的,所以证书验证不通过,但它的数据传输
      依然是 SSL 加密的爬虫如果要爬取这样的站点,就需要设置忽略证书的选项,否则会提示SSL 链接错误

4. HTTP请求过程

      ~~~~~       在浏览器输入一个 URL,按回车键后,在浏览器中观察页面内容,其中的过程是浏览器向网站所在服务器发送一个 Request (请求),网站服务器接收到 Request 后进行处理和解析,然后返回对应的 Response(响应),传回浏览器,Response 中包含页面的源代码等内容,浏览器再对其进行解析便会将网页呈现出来。
      ~~~~~       请求头里面带有许多请求信息,例如浏览器标识、Cookies、Host等信息,这是 Reque的一部分,服务器会根据请求头内的信息判断请求是否合法,进而做出对应的响应,返回Response。例如,其中包含务器的类型、文档类型、日期等信息,浏览器接收 Response 后,会解析响应内容,进而呈网页内容。文章来源地址https://www.toymoban.com/news/detail-718686.html

到了这里,关于网络爬虫学习笔记 1 HTTP基本原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 〖Python网络爬虫实战①〗- HTTP原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月09日
    浏览(44)
  • 探秘网络爬虫的基本原理与实例应用

    1. 基本原理 网络爬虫是一种用于自动化获取互联网信息的程序,其基本原理包括URL获取、HTTP请求、HTML解析、数据提取和数据存储等步骤。 URL获取: 确定需要访问的目标网页,通过人工指定、站点地图或之前的抓取结果获取URL。 HTTP请求: 发送HTTP请求向目标服务器请求页面

    2024年01月20日
    浏览(36)
  • 网络爬虫-----http和https的请求与响应原理

      目录 前言 简介 HTTP的请求与响应 浏览器发送HTTP请求的过程: HTTP请求主要分为Get和Post两种方法 查看网页请求 常用的请求报头 1. Host (主机和端口号) 2. Connection (链接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 举例: 6. Ref

    2024年02月07日
    浏览(46)
  • 网络爬虫——HTTP和HTTPS的请求与响应原理

    目录 一、HTTP的请求与响应 二、浏览器发送HTTP请求的过程 三、HTTP请求方法 四、查看网页请求 五、常用的请求报头 六、服务端HTTP响应 七、常用的响应报头 八、Cookie 和 Session 九、响应状态码 十、网页的两种加载方法 十一、认识网页源码的构成 十二、爬虫协议 在如今这个

    2024年02月08日
    浏览(36)
  • 〖Python网络爬虫实战④〗- 代理的基本原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月08日
    浏览(40)
  • 〖Python网络爬虫实战㉜〗- 协程基本原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,订阅本专栏前必读关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明 作者

    2024年02月16日
    浏览(39)
  • 〖Python网络爬虫实战⑨〗- 正则表达式基本原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                  python项目实战                 Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月15日
    浏览(88)
  • 微服务架构基本原理学习笔记(一)

    微服务是一种技术架构,通常我们可以把它理解为一组可以相互之间协同工作的应用程序或服务,这些应用程序或服务能够被单独部署到不同的服务器中,并且能够自主运行和维护。 微服务技术只是一个名称而已,或许我们在日常工作中已经或多或少在使用其中的一种或几种

    2024年02月06日
    浏览(38)
  • 微服务架构基本原理学习笔记(二)

    上一篇:微服务架构基本原理学习笔记(一) 从一个已有的单体架构的应用程序开始进行微服务架构的重构往往是一个不错的选择。随着业务量和功能的增加,我们可以考虑使用微服务架构来扩充应用程序中原有的功能,或者每次添加新功能时,都为其创建一个新的微服务。

    2024年02月07日
    浏览(38)
  • 微服务架构基本原理学习笔记(三)

    上一篇:微服务架构基本原理学习笔记(二) 微服务本身并没有规定通信规则,换句话说,一个微服务并没有规定可以被哪些应用程序访问,或者被哪些其它的微服务调用。应用程序与微服务间的直接通信,或者微服务与微服务间的直接调用,往往会因为其中错综复杂的关系

    2024年02月11日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包