Python爬虫基础之隧道HTTP

这篇具有很好参考价值的文章主要介绍了Python爬虫基础之隧道HTTP。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

URL的开头通常会有http或者https,这就是访问资源需要的协议类型。有时,我们还会看到ftp、sftp、smb开头的URL,它们都是协议类型。在爬虫中,我们抓取的页面通常就是http或者https协议的,这里首先了解一下这两个协议的含义。

HTTP全称是Hyper Text Transfer Protocol,中文名叫做超文本传输协议。HTTP协议适用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTP由万维网协会和Internet工作小组IETF共同指定的规范,目前广泛使用的是HTTP1.1版本。

HTTPS的全称是Hyper Text Transer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单而言,它是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。

HTTPS的安全基础是SSL,因此通过它传输的内容都是经过SSL加密的,它的主要作用可以分为两种。

建立一个安全通道来保证数据传输的安全确认网站的真实性,凡是使用了HTTPS的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。HTTP请求过程

我们在浏览器中输入一个URL,回车之后便会在浏览器中观察到页面内容。实际上,这个过程是浏览器向网站所在的服务器发送了一个请求,网站服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里面包含了页面的源代码等内容,浏览器再对其进行解析,便将网页呈现了出来

此处的客户端即代表我们自己的PC或者手机浏览器,服务器即要访问的网站所在的服务器。

为了更直观地说明这个过程,这里用Chrome浏览器的开发者模式下的Network监听组件来做下演示,它可以显示访问当前请求网页时发生的所有网络请求和响应。

打开Chrome浏览器,右击并选择“检查”项,即可打开浏览器的开发者工具。这里访问百度,输入百度的URL后回车,观察这个过程中发生了怎样的网络请求。可以看到,在Network页面下方出现了一个个的条目,其中一个条目就代表一次发送请求和接收响应的过程

首先是General部分,Request URL为请求URL,Request Method为请求方法,Status Code为响应状态码,Remote Address为远程服务器的地址和端口,Request Policy为Referrer判别策略。

再继续往下,可以看到,有Response Headers和Request Headers,这分别代表响应头和请求头。请求头里带有许多请求信息,例如浏览器标识、cookies、Host等信息,这是请求的一部分,服务器会根据请求头内的信息判断请求是否合法,进而作出对应的响应。图中可以看到的Response Header就是响应的一部分,例如包含了服务器的类型、文档类型、日期等信息,浏览器接受到响应后,会解析响应内容,进而呈现网页内容。文章来源地址https://www.toymoban.com/news/detail-430769.html

#! -*- encoding:utf-8 -*-

    import requests

    # 要访问的目标页面
    targetUrl = "http://ip.hahado.cn/ip"

    # 代理服务器
    proxyHost = "ip.hahado.cn"
    proxyPort = "39010"

    # 代理隧道验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }

    resp = requests.get(targetUrl, proxies=proxies)

    print resp.status_code
    print resp.text

到了这里,关于Python爬虫基础之隧道HTTP的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python土力学与基础工程计算.PDF-隧道涌水量

    Python 求解代码如下: 输出结果为: 该隧道通过该含水体段的经常涌水量为2.74 m^3/d 下载地址: https://oan3m7w1ar.feishu.cn/file/WMEsbUF7Iokbt2x3OgKcqQqnnTd?from=from_copylink  

    2024年02月11日
    浏览(29)
  • 多线程+隧道代理:提升爬虫速度

    在进行大规模数据爬取时,爬虫速度往往是一个关键问题。本文将介绍一个提升爬虫速度的秘密武器:多线程+隧道代理。通过合理地利用多线程技术和使用隧道代理,我们可以显著提高爬虫的效率和稳定性。本文将为你提供详细的解决方案和实际操作价值,同时附上Python代码

    2024年02月11日
    浏览(43)
  • 【Python】Parser通常用法

    Parser在Python程序中经常使用,使用前需要import argparse,简单来说argparse模块就是对参数进行设置。专业说法如下: argparse 模块提供轻松编写用户友好的命令行接口。 程序定义它需要的参数,然后 argparse 将弄清如何从 sys.argv 解析出那些参数。 argparse 模块会自动生成帮助和使用

    2024年02月16日
    浏览(28)
  • 使用HTTP隧道时如何应对目标网站的反爬虫监测?

    在进行网络抓取时,我们常常会遇到目标网站对反爬虫的监测和封禁。为了规避这些风险,使用代理IP成为一种常见的方法。然而,如何应对目标网站的反爬虫监测,既能保证数据的稳定性,又能确保抓取过程的安全性呢?本文将向您分享一些关键策略,帮助您迈过反爬虫的

    2024年02月14日
    浏览(33)
  • 【python爬虫一】爬虫基础操作

    概念:是一种按照一定的规则,自动地抓取互联网上网页中相应信息(文本、图片等)的程序或脚本,然后把抓取的信息存储下来。 通用爬虫:把一整张页面源码数据进行爬取 聚焦爬虫:把页面中指定的数据进行爬取 增量式爬虫:监测网站数据更新的情况。 分布式爬虫:基

    2024年02月09日
    浏览(34)
  • 【爬虫】python爬虫爬取网站页面(基础讲解)

    👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 1. 导入必要的库 requests 库用于发送HTTP请

    2024年02月08日
    浏览(35)
  • python爬虫_python基础数据类型

    大家好,我是yma16,本文分享关于python的基础数据类型,作为python爬虫专栏的基石。 发展历史: Python 是由 Guido van Rossum 在八十年代末和九十年代初,在荷兰国家数学和计算机科学研究所设计出来的。 Python 本身也是由诸多其他语言发展而来的,这包括 ABC、Modula-3、C、C++、Alg

    2024年02月11日
    浏览(27)
  • Python网络通信-python爬虫基础

    1.1、安装requests模块 打开pycharm 安装成功会提示successfully 1.2、发送GET请求 简单请求(以京东举例) 运行结果 添加请求头(以百度举例) 为什么要添加请求头呢,因为有些网页在你请求的时候会检查你是否有请求头,如果没有请求头,就不会返回正常的内容,下面我来验证

    2024年01月24日
    浏览(37)
  • 快速上手Python爬虫:网络爬虫基础介绍及示例代码

    网络爬虫,又称为 Web 爬虫、网络蜘蛛、网络机器人,在英文中被称为 web crawler,是一种自动化程序,能够在互联网上自动获取数据、抓取信息,并将其存储在本地或远程数据库中。它可以帮助我们自动化处理大量数据,提高工作效率,更好地利用互联网资源。 现代互联网上

    2024年02月09日
    浏览(34)
  • 【Python】爬虫基础

    目录 一、网络请求流程 1.HTTP 2.URL 3.网络传输模型 4.长链接/短链接 二、爬虫基础 1.基础概念 2.发送请求 3.请求模式 4.cookie 5.retrying 用户输入网址,例如 www.baidu.com 浏览器先向DNS请求,找到网址域名对应的ip地址和端口号并传到前端 浏览器请求访问这个ip地址对应的服务器,然

    2023年04月12日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包