爬虫基础-网络协议的基本了解-Toy模板网

这篇具有很好参考价值的文章主要介绍了爬虫基础-网络协议的基本了解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、概述

网络协议是互联网通信的基础，它规定了数据传输的格式、传输速率、传输控制、错误检测和纠正等内容。根据协议的不同功能和应用领域，协议可以分为以下几类。

1. 传输层协议

2. 网络层协议

3. 物理层协议

4. 应用层协议

二、HTTP协议和HTTPS协议

HTTP（Hypertext Transfer Protocol）中文名为超文本传输协议，其作用是把超文本数据从网络传输到本地浏览器，能够高效而准确地传输超文本文档。

HTTP协议的特点：

应用层协议，由请求和响应构成，是一个标准的客户端服务器模型；

无状态协议，对客户端没有状态存储，对事物处理没有“记忆”能力，比如访问一个网站需要反复进行登录操作；

通常承载于TCP协议之上；

由请求和相应构成，是一个标准的客户端服务器模型（B/S）；

通信使用明文、请求和响应不会对通信方进行确认、无法保护数据的完整性；

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）是一种通过计算机网络进行安全通信的传输协议，经由 HTTP 进行通信，利用 SSL/TLS 建立全信道，加密数据包，HTTPS 使用的主要目的是提供对网站服务器的身份认证，同时保护交换数据的隐私与完整性，相当于 HTTP 协议的安全版。

HTTPS 协议的特点：

内容加密：建立了一个信息安全通道，保证数据传输的安全性；

身份验证：确认网站的真实性，凡是使用 HTTPS 协议的网站，都可以通过单机浏览器地址栏的锁头标志来查看网站认证之后的真实信息，此外还可以通过 CA 机构颁发的安全签章来查询；

保护数据完整性：防止传输的内容被中间人冒充或者篡改。

HTTP 和 HTTPS 的区别主要如下：

HTTPS 协议需要到 CA 申请证书，一般免费证书较少，因而需要一定费用；

HTTP 是超文本传输协议，信息是明文传输，HTTPS 则是具有安全性的 SSL 加密传输协议；

HTTP 和 HTTPS 使用的是完全不同的连接方式，用的端口也不一样，前者是80，后者是443；

HTTP 的连接很简单，是无状态的；HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输、身份认证的网络协议，比 HTTP 协议安全。

HTTP 请求过程简述：

1. 浏览器向 DNS 服务器请求解析该 URL 中的域名所对应的 IP 地址；

2. 解析出 IP 地址后，根据该 IP 地址和默认端口 80，和服务器建立 TCP 连接；

3. 浏览器发出读取文件 (URL 中域名后面部分对应的文件)的 HTTP 请求，该请求报文作为 TCP 三次握手的第三个报文的数据发送给服务器；

4. 服务器对浏览器请求作出响应，并把对应的 HTML 文本发送给浏览器；

5. 释放 TCP 连接；

6. 浏览器将该 HTML 文本并显示内容。

HTTP请求的主要方法GET、POST：

1. GET：向特定的资源发出请求，并返回实体主体；

2. POST：向指定资源提交数据进行处理请求（例如提交表单或者上传文件），数据被包含在请求体中，POST 请求可能会导致新的资源的建立和/或已有资源的修改；

GET 和 POST 请求方法区别：

GET 请求中的参数包含在 URL 里，数据可以在 URL 中看到；而 POST 请求的 URL 不会包含这些数据，数据都是通过表单形式传输的，会包含在函数体中；

GET 请求提交的数据最多只有 1024 字节，POST 方式则没有限制；

GET 请求是不安全的，因为在传输过程中，参数数据直接暴露在 URL 上，所以不能用来传递敏感信息；

GET 请求只允许 ASCII 码，POST 请求没有限制，允许二进制数据；

对于 GET 请求，浏览器会把 http header 和 data 一起发送出去，服务器响应200，请求成功；

对于POST请求，浏览器先发送 header，服务器会响应100（已经收到请求的第一部分，正在等待其余部分），浏览器再次发送 data，服务器返回200，请求成功；

简而言之：GET 产生一个 TCP 数据包，POST 产生两个 TCP 数据包，不过并不是所有浏览器都会在 POST 中发送两次包，Firefox（火狐）就只发送一次；

HTTP 请求头

HTTP 请求头（HTTP Request Header）提供了关于请求，响应或者其他的发送实体的信息，HTTP 的头信息包括通用头、请求头、响应头和实体头四个部分。

常用的 HTTP 请求头如下：

Accept：请求报头域，用于指定客户端可接受那些类型的信息；
Accept: application/json 浏览器可以接受服务器回发的类型为 application/json；
Accept: */* 代表浏览器可以处理所有类型,(一般浏览器发给服务器都是发这个)；
Accept-Encoding：用于指定客户端可接受的内容编码，通常指定压缩方法，是否支持压缩，支持什么压缩方法（gzip，deflate）；
Accept-Language：用于指定客户端可接受的语言类型（zh-cn,zh;q=0.5：支持的语言分别是简体中文和中文，优先支持简体中文）；
Content-type：也叫互联网媒体类型（Internet Media Type）或者 MIME 类型，在 HTTP 协议消息头中用来表示具体请求中的媒体类型信息（text/html：HTML 格式、image/gif：GIF 图片、application/json：JSON 类型、application/x-www-form-urlencoded：表单数据、multipart/form-data：表单文件上传等）；
Host：请求报头域主要用于指定被请求资源的 Internet 主机和端口号，其内容为请求 URL 的原始服务器或网关的位置，从 HTTP1.1 版本开始，请求必须包含此内容；
Referer：用于标识请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理，如做来源统计、防盗链处理等；
User-Agent：简称 UA，这是一个特殊的字符串头，可以使服务器识别客户端使用的操作系统及版本、浏览器及版本等信息；
Connection：表示是否需要持久连接（HTTP 1.1默认进行持久连接）；
Date：请求发送的日期和时间；
Expect：请求的特定的服务器行为；
Warning：关于消息实体的警告信息；
Max-Forwards：限制信息通过代理和网关传送的时间；
Cookie：主要功能更是维持当前访问会话，用来存储一些用户信息以便让服务器辨别用户身份的（大多数需要登录的网站上面会比较常见），比如 Cookie 会存储一些用户的用户名和密码，当用户登录后就会在客户端产生一个 Cookie 来存储相关信息，这样浏览器通过读取 Cookie 的信息去服务器上验证并通过后会判定你是合法用户，从而允许查看相应网页；

HTTP 响应头

HTTP 响应头（HTTP Responses Header）中包含了服务器对请求的应答信息，HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

常用的 HTTP 响应头如下：

Accept-Ranges：表明服务器是否支持指定范围请求及哪种类型的分段请求；
Allow：对某网络资源的有效的请求行为，不允许则返回405；
Cache-Control：告诉所有的缓存机制是否可以缓存及哪种类型；
Content-Language：响应体的语言；
Content-Length：响应体的长度；
Content-Location：请求资源可替代的备用的另一地址；
Content-Range：在整个返回体中本部分的字节位置；
Content-Type：返回内容的 MIME 类型；
Date：原始服务器消息发出的时间；
Expires：响应过期的日期和时间，可以让代理服务器或浏览器将加载的内容更新到缓存中，当再次访问相同的内容时，就可以直接从缓存中加载，达到降低服务器负载、缩短加载时间的目的；
Location：用来重定向接收方到非请求 URL 的位置来完成请求或标识新的资源；
Proxy-Authenticate：它指出认证方案和可应用到代理的该 URL 上的参数；
refresh：应用于重定向或一个新的资源被创造，在5秒之后重定向（由网景提出，被大部分浏览器支持）；
Server：包含服务器的信息，例如名称、版本号等；
Set-Cookie：设置 Http Cookie，响应头中的 Set-Cookie 用于告诉浏览器需要将此内容放在 Cookie 中，下次请求时将 Cookie 携带上；
Warning：警告实体可能存在的问题；
WWW-Authenticate：表明客户端请求实体应该使用的授权方案。