【Python从入门到进阶】22、urllib库基本使用

这篇具有很好参考价值的文章主要介绍了【Python从入门到进阶】22、urllib库基本使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

接上篇《21、爬虫相关概念介绍》
上一篇我们介绍了爬虫的相关概念,本篇我们来介绍一下用Python实现爬虫的必备基础,urllib库的学习。

一、Python库的概念

我们今后的学习可能需要用到很多python库(library),及引用其他已经编写好的程序代码模块,来提高我们的开发效率。
python库(library)是指一组相关的模块和函数,用于提供特定领域或功能的支持。Python标准库和第三方库都属于Python库。

Python库通常是经过开发人员编写和测试的可重用代码集合。这些库提供了各种常用的函数、类、工具和算法,能够快速解决实际问题和加速开发过程。Python库主要有以下几类:

●标准库:Python官方提供的库,已经包含在Python解释器中,无需安装。Python标准库是指Python官方提供的、包含在Python解释器里的多个模块和包。这些模块和包提供了许多常用的功能,例如文件操作、网络通信、GUI开发、数据处理等等,可以直接在代码中使用。
Python标准库中的模块和函数都经过严格测试和验证,确保其稳定性和可靠性。因此,在实际开发中,我们通常会优先使用Python标准库提供的功能,而不是自己编写代码实现同样的功能。这不仅可以节省时间和精力,还可以提高代码的可维护性和可重用性。


●第三方库:由其他开发者提供的库,需要通过pip等包管理工具单独安装。


●框架:封装了一系列库和工具,提供了更高层次的抽象和专业化的功能,例如Django、Flask、Pygame等。

使用Python库可以大大提升开发效率,减少重复工作和错误率。如果某个功能没有现成的库,我们也可以自行编写并发布自己的库,方便其它人复用。

二、urllib简介

urllib是Python标准库中的一个模块,它包含了很多用于处理URL的功能。常见的用法包括发送HTTP请求、读取和解析网页内容等。具体来说,urllib模块中包含以下子模块:

●urllib.request: 用于发送HTTP请求和获取响应,支持HTTP、HTTPS和FTP协议。
●urllib.error: 包含与HTTP错误相关的异常类。
●urllib.parse: 用于解析和操作URL,例如解析URL参数。
●urllib.robotparser: 用于解析robots.txt文件,该文件告诉网络爬虫哪些页面可以访问。

三、发送HTTP请求

urllib.request模块提供了以下函数用于发送HTTP请求:
1、urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None): 打开一个URL并返回响应对象。可选参数包括POST数据、超时时间、证书文件等。
参数解释:

●url:必需,表示请求的URL地址,可以是一个字符串类型或者一个请求对象。
●data:可选,表示要发送的POST数据,需要以字节流(bytes)形式传递。如果不指定该参数,则默认为GET请求。
●timeout:可选,表示请求超时时间,单位为秒,默认值为None,即永远等待服务器响应。
●cafile:可选,表示SSL证书认证文件路径,通常为.pem文件,用于验证HTTPS请求的合法性。如果不指定该参数,则使用系统默认设置。
●capath:可选,表示SSL证书认证文件夹路径,通常为.pem文件夹,用于验证HTTPS请求的合法性。如果不指定该参数,则使用系统默认设置。
●cadefault:可选,如果设置为True,则使用系统默认的证书位置进行认证,否则需要指定cafile或capath参数。
●context:可选,表示SSL上下文,在处理HTTPS请求时需要使用,用于指定证书和协议等信息。

除了以上参数之外,urllib.request.urlopen()函数还支持一些其他的关键字参数,例如method、headers、origin_req_host、unverifiable等。这些参数可以用于自定义HTTP请求头、指定原始请求主机名、禁用危险的重定向等功能。
2、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None): 构造一个HTTP请求对象。可选参数包括POST数据、请求头信息等。
参数解释:

●url:必需,表示请求的URL地址,可以是一个字符串类型或者一个请求对象。
●data:可选,表示要发送的POST数据,需要以字节流(bytes)形式传递。如果不指定该参数,则默认为GET请求。
●headers:可选,表示请求头信息,需要以字典类型传递。如果不指定该参数,则使用默认的请求头。
●origin_req_host:可选,表示原始请求主机名,通常用于跨站点请求时设置。如果不指定该参数,则使用目标URL的主机名。
●unverifiable:可选,如果设置为True,则表示请求是否被视为不可验证的。这个参数通常由支持协议处理器设置。
●method:可选,表示HTTP请求方法,可以是GET、POST、PUT、DELETE等。如果不指定该参数,则默认为GET请求。

除了以上参数之外,urllib.request.Request()函数还支持其他的关键字参数,例如version、host、urlencoded等。这些参数可以用于自定义HTTP请求方法、指定请求主机名、编码URL参数等功能。在实际使用中,我们可以根据具体需求选择合适的参数来构造HTTP请求对象。
3、urllib.request.build_opener(*handlers): 创建一个自定义的URL打开器对象,可以通过添加处理器(handler)实现定制化的HTTP请求处理流程。
4、urllib.request.install_opener(opener): 安装一个自定义的URL打开器对象,使其成为默认打开URL的方法。

四、解析HTTP响应

urllib.request.urlopen()函数返回的响应对象包含了以下方法和属性:

●response.read([size]): 读取响应内容,可选参数指定最多读取的字节数。
●response.readline(): 读取一行响应内容。
●response.readlines([sizehint]): 读取所有响应内容并以列表形式返回,每个元素是一行响应内容。
●response.getcode(): 获取HTTP状态码。

HTTP响应状态码指示与HTTP请求相关的返回结果,通常由三位数字组成。其中,第一位数字表示响应类型,后面两位数字表示具体的响应含义。
以下是一些常见的HTTP响应状态码及其含义:

200 OK:请求成功
201 Created:成功创建新资源
204 No Content:请求已成功处理,但没有内容返回
301 Moved Permanently:请求的URL已移动到新地址
302 Found:请求的URL临时转移到其他地址
304 Not Modified:请求的资源未被修改,可以直接使用缓存数据
400 Bad Request:请求参数有误,服务器无法解析请求
401 Unauthorized:请求需要用户认证或者认证失败
403 Forbidden:请求被拒绝访问,通常是因为权限不足
404 Not Found:请求的资源不存在
500 Internal Server Error:服务器出现内部错误

除了以上状态码之外,HTTP协议还定义了很多其他的状态码,例如502 Bad Gateway、503 Service Unavailable等等。在处理HTTP请求和响应时,我们需要通过判断响应状态码来确定HTTP请求是否成功,并根据响应状态码进行下一步操作。

●response.headers: 响应头信息,是一个类字典对象,提供了各种方法来访问头信息。
●response.info(): 获取响应头信息,等价于response.headers。
●response.geturl(): 获取实际请求的URL,可能与原始请求的URL不同。

五、下载文本、图片和视频等文件

urllib.request.retrieve()是Python标准库中的一个函数,用于下载文件并保存到本地。该函数有两个参数:

●url:必需,表示要下载的文件的URL地址。
●filename:可选,表示文件保存路径和名称。如果不指定该参数,则使用默认的文件名。
除了以上参数之外,urllib.request.retrieve()函数还支持以下两个参数:
●reporthook: 可选,回调函数,每次读取块时都会调用此函数。该函数通常用于显示下载进度等信息。
●data:可选,POST数据,需要以字节流(bytes)形式传递。

使用urllib.request.retrieve()函数可以方便地下载文件并保存到本地,例如:

import urllib.request

url = 'https://www.baidu.com/img/PCfb_5bf082d29588c07f842ccde3f97243ea.png'
filename = 'baidu_logo.png'
urllib.request.urlretrieve(url, filename)

这段代码将下载位于url变量中的文件,并保存在名为filename的文件中。如此便实现了文件下载功能。
效果:
【Python从入门到进阶】22、urllib库基本使用

六、urllib其他常用函数

下面主要介绍一下urllib.parse模块的函数。
urllib.parse是Python标准库中的一个模块,用于URL解析、编码和构造相关的操作。该模块包含了各种与URL相关的函数和类,可以方便地进行URL参数解析、拼接、编码和反编码等操作。

1、quote函数

urllib.parse.quote()是Python标准库中的一个函数,用于将字符串编码为URL安全的格式。在HTTP请求和URL参数传递过程中,某些字符可能会被解释为特殊含义或不安全字符,此时需要使用quote()函数进行编码,以避免这些字符对数据产生影响。

该函数有一个必需参数string,表示要编码的字符串。除此之外,还有两个可选参数:

●safe:表示不需要编码的字符,可以是字符串类型或者字节流(bytes)类型。默认值为/,表示/字符不需要编码。
●encoding:表示原始字符串的编码方式,默认值为utf-8。

urllib.parse.quote()函数将原始字符串中所有非ASCII字符、保留字符(如:、/、?等)和不安全字符(如空格、换行符等)都转换为%后跟两位十六进制数的形式,表示其在URL中的编码格式。例如:

import urllib.parse

url = 'https://example.com/search?q='
query = 'python 编程'
encoded_query = urllib.parse.quote(query)
full_url = url + encoded_query
print(full_url)

结果:

https://example.com/search?q=python%20%E7%BC%96%E7%A8%8B

以上代码将字符串query中的空格编码成%20,汉字也被编码成%十六进制数的形式,生成了一个URL地址,其中搜索关键词已经被正确编码。在构造URL时,我们通常需要使用urllib.parse.quote()函数将URL参数进行编码,以确保URL的正确性和安全性。

2、urlencode函数

urllib.parse.urlencode()是Python标准库中的一个函数,用于将字典类型或包含键值对元组的可迭代对象编码为URL参数。在HTTP请求和URL参数传递过程中,我们需要将数据转换为URL安全格式,并拼接到URL地址后面进行传递,此时就可以使用urlencode()函数进行编码。

该函数有一个必需参数params,表示要编码的字典类型或可迭代对象(如列表、元组等)。除此之外,还有三个可选参数:

●doseq:表示是否需要将相同参数名的多个值都编码并拼接到URL参数中,默认值为False。
●safe:表示不需要编码的字符,可以是字符串类型或者字节流(bytes)类型。默认值为/,表示/字符不需要编码。
●encoding:表示原始字符串的编码方式,默认值为utf-8。

urllib.parse.urlencode()函数将字典类型或可迭代对象中所有的键值对按照key=value的格式进行拼接,并将其编码为URL安全格式。例如:

import urllib.parse

params = {'name': 'Alice', 'age': 20}
encoded_params = urllib.parse.urlencode(params)
url = 'https://example.com/search?' + encoded_params
print(url)

结果:

https://example.com/search?name=Alice&age=20

以上代码将params字典类型的数据编码为URL参数,并拼接到URL地址后面,生成了一个完整的URL地址。在构造URL时,我们通常需要使用urllib.parse.urlencode()函数将URL参数进行编码,以确保URL的正确性和安全性。

3、urlencode.encode函数

urllib.parse.urlencode(params).encode()方法将字符串类型的数据编码为bytes类型,例如:

data = 'name=Alice&age=20'
encoded_data = data.encode()
print(encoded_data)    

结果:

b'name=Alice&age=20'

当我们需要使用POST方法向服务器传递数据时,通常需要将数据编码为bytes类型。因此,可以将urlencode()函数和encode()方法结合使用,将字典类型的数据编码为bytes类型的数据,例如:

import urllib.parse
params = {'name': 'Alice', 'age': 20}
encoded_params = urllib.parse.urlencode(params).encode()

以上代码将字典类型的params数据编码为URL参数形式的字符串,并将其转换为bytes类型的数据encoded_params。在实际开发中,我们可以根据具体需求选择合适的参数和方式,完成HTTP请求和URL参数的编码和解码工作。

七、示例代码

下面是一个简单的使用urllib.request模块发送HTTP请求并获取响应的示例代码:

import urllib.request

# 下面模拟浏览器向服务器发送请求
# 发送HTTP GET请求
response = urllib.request.urlopen('http://www.baidu.com/')
print(response.getcode())

# 发送HTTP POST请求
# city 是搜索城市名,date是要查询的天气日期
data = {'city': '郑州', 'date': '2023-05-31'}
# urlencode 将字典类型的数据data转换为URL参数形式的字符串(city=郑州&date=2023-05-31)
# .encode():将字符串类型的URL参数编码为bytes类型。由于HTTP请求中需要传递bytes类型的数据,因此需要使用该方法进行编码。
data = urllib.parse.urlencode(data).encode()
req = urllib.request.Request(url='https://api.asilu.com/weather/', data=data)

# 添加自定义请求头
req.add_header('User-Agent', 'Mozilla/5.0')
response = urllib.request.urlopen(req)
print(response.read().decode())

这个示例代码首先使用urllib.request.urlopen()函数发送HTTP GET请求,并打印响应状态码。接着,它构造了一个HTTP POST请求,并添加了自定义的User-Agent请求头,最后发送请求并打印响应内容。
结果:

200
{
    "city": "郑州",
    "update_time": "11:30",
    "date": "5月31日",
    "weather": [{
        "date": "31日(今天)",
        "weather": "阴转多云",
        "icon1": "02",
        "icon2": "01",
        "temp": "28/19℃",
        "w": "",
        "wind": "东风转西风",
        "icond": "104",
        "iconn": "151"
    }, {
        "date": "1日(明天)",
        "weather": "晴转多云",
        "icon1": "00",
        "icon2": "01",
        "temp": "31/20℃",
        "w": "3-4级",
        "wind": "西北风转西南风",
        "icond": "100",
        "iconn": "151"
    }, {
        "date": "2日(后天)",
        "weather": "阴",
        "icon1": "02",
        "icon2": "02",
        "temp": "27/19℃",
        "w": "3-4级转",
        "wind": "北风转西北风",
        "icond": "104",
        "iconn": "104"
    }, {
        "date": "3日(周六)",
        "weather": "小雨",
        "icon1": "07",
        "icon2": "07",
        "temp": "25/19℃",
        "w": "",
        "wind": "西南风",
        "icond": "305",
        "iconn": "305"
    }, {
        "date": "4日(周日)",
        "weather": "小雨转多云",
        "icon1": "07",
        "icon2": "01",
        "temp": "23/18℃",
        "w": "",
        "wind": "西南风转西风",
        "iconn": "151",
        "icond": "305"
    }, {
        "date": "5日(周一)",
        "weather": "多云转晴",
        "icon1": "01",
        "icon2": "00",
        "temp": "30/20℃",
        "w": "",
        "wind": "南风转西南风",
        "icond": "101",
        "iconn": "150"
    }, {
        "date": "6日(周二)",
        "weather": "阴",
        "icon1": "02",
        "icon2": "02",
        "temp": "30/21℃",
        "w": "3-4级",
        "wind": "南风",
        "icond": "104",
        "iconn": "104"
    }]
}

以上就是关于urllib库的基本使用,下一篇我们来学习通过urllib的post请求实现百度翻译的效果。

参考:尚硅谷Python爬虫教程小白零基础速通教学视频

转载请注明出处:https://blog.csdn.net/acmman/article/details/130975114文章来源地址https://www.toymoban.com/news/detail-470388.html

到了这里,关于【Python从入门到进阶】22、urllib库基本使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python从入门到进阶】35、selenium基本语法学习

    接上篇《34、selenium基本概念及安装流程》 上一篇我们介绍了selenium技术的基础概念以及安装和调用的流程,本篇我们来学习selenium的基本语法,包括元素定位以及访问元素信息的操作。 Selenium元素定位是指通过特定的方法在网页中准确定位到需要操作的元素,例如按钮、文本

    2024年02月09日
    浏览(41)
  • 【Python从入门到进阶】34、selenium基本概念及安装流程

    接上篇《33、使用bs4获取星巴克产品信息》 上一篇我们介绍了如何使用bs4来解析星巴克网站,获取其产品信息。本篇我们来了解selenium技术的基础。 Selenium是一种用于自动化Web浏览器操作的开源工具。它提供了一组API(应用程序接口),使开发人员能够使用多种编程语言(如

    2024年02月10日
    浏览(29)
  • Python logging模块的基本使用、进阶使用详解

    在 python3 中,内置了 logging 模块,用于进行日志相关的处理。 这篇文章将总结 logging 模块的基本用法及进阶用法 1. 日志级别及对应函数 logging模块默认定义了6个日志级别: 日志优先级: CRIRICAL ERROR WARNING INFO DEBUG 当日志级别设置为某个级别时,则低于该级别的日志将不输出

    2024年01月25日
    浏览(50)
  • 【Python】进阶学习:pandas--read_excel()函数的基本使用

    【Python】进阶学习:pandas–read_excel()函数的基本使用 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~ 💡 创作高质量博文(平均质量分92+),分享更多关于深度学习、

    2024年03月09日
    浏览(46)
  • python爬虫从0到1 -selenium的基本使用(1),非常适合收藏的Python进阶重难点笔记

    5.根据标签名字来获取对象 button = browser.find_element_by_tag_name(‘input’) 6.通过当前页面中的链接文本来获取对象 button = browser.find_element_by_link_text(‘新闻’) (五)selenium访问元素信息 ==================================================================================== 例: 1.获取元素属性的属性值

    2024年04月09日
    浏览(45)
  • 【Python从入门到进阶】28、xpath的安装以及使用

    接上篇《27、Handler处理器使用及代理和Cookie登录实现》 上一篇我们讲解了urllib中Handler处理器的基本使用,以及实现代理访问和Cookie的登录。本篇我们来讲解HTML文档解析中的核心插件xpath的安装及使用。 XPath是由W3C(World Wide Web Consortium)组织发布的。W3C是一个国际性组织,负

    2024年02月05日
    浏览(40)
  • 【Python从入门到进阶】30、JSONPath的介绍和使用

    接上篇《29、xpath抓取站长素材图片》 上一篇我们讲解了如何利用xpath来抓取站长素材网站的图片区首页的所有图片,本篇我们来介绍JSONPath的基础和具体使用。 1、什么是JSONPath? JSONPath是一种用于在JSON(JavaScript Object Notation)数据中定位和提取特定元素的查询语言。它类似于

    2024年01月22日
    浏览(35)
  • python urllib库使用方法

      urllib库是 Python的一个第三方库,它提供了丰富的功能和强大的性能。Python版本为2.11,提供了在不同平台上运行的选项,其中包括用于桌面和移动设备的应用程序。与 pycharm和 libc等库不同, urllib不是为了构建桌面应用程序而设计的,但是它可以用于移动设备上的应用程序。

    2023年04月09日
    浏览(45)
  • Python3使用urllib访问网页

    改教程翻译自python官网的一篇文档。 urllib.request 是一个用于访问URL(统一资源定位符)的Python模块。它以 urlopen 函数的形式提供了一个非常简单的接口,可以访问使用多种不同协议的URL。它也提供了一个稍微复杂一些的接口,用来处理常用的情况——如基本的认证,cookies,代理

    2024年02月08日
    浏览(44)
  • Python爬虫库之urllib使用详解

      一、Python urllib库 Python urllib 库用于操作网页 URL,并对网页的内容进行抓取处理。 Python3 的 urllib。 urllib 包 包含以下几个模块: urllib.request - 打开和读取 URL。 urllib.error - 包含 urllib.request 抛出的异常。 urllib.parse - 解析 URL。 urllib.robotparser - 解析 robots.txt 文件。 二、urllib.r

    2024年02月11日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包