python爬虫02-requests库使用01

这篇具有很好参考价值的文章主要介绍了python爬虫02-requests库使用01。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

1、requests库简介

2、requests库-安装

3、requests库-使用

3.1 导入模块

3.2 发送请求

3.3 requests库常用方法

3.4 访问控制参数kwargs

 4、请求返回对象 Response

5、requests访问时的可能异常

1、requests库简介

  • requests是一个http的第三方请求库,发送http请求,并获取响应结果;

2、requests库-安装

pip install requests
#使用清华园镜像安装:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

3、requests库-使用

3.1 导入模块

import requests

3.2 发送请求
import requests  # 安装好requests后,导入模块
url = 'https://www.baidu.com'
headers = {'content': 'text/html;charset=utf-8'}
resp = requests.get(url, headers)
print(resp)  # <Response [200]>  代表OK
resp.encoding = 'utf-8' # 定义响应对象的编码
print(resp.text)# 打印网页数据
resp.close()  # 爬完数据,请务必要关闭
3.3 requests库常用方法
方法 作用
requests.request(method,url,**kwargs)

创建和发送一个请求,通用方案

requests.get() 发送get请求,对应http的get方法
requests.post() 发送post请求,对应http的post方法
requests.head()         获取网页的头信息,对应http的HEAD方法
3.4 访问控制参数kwargs

resp = requests.request('get',url, **kwargs)

kwargs参数 作用
params 字典类型,作为参数增加到url ; get方法参数传递
data

字典 / 字节序列 / 文件对象,作为Requests对象的内容;

post方法参数传递;

json

json格式的数据,作为Requests的内容;

前后端分离以json参数上传数据;

headers                 字典类型,HTTP定制头,例如设置User-Agent;
cookies         字典或者CookieJar,Request中的cookie
auth 元组,支持HTTP认证功能;
files 传输文件,字典类型; key:参数名,value:文件对象;
timeout 设定超时事件,单位为秒;
proxies 字典类型,设定访问代理服务器;
allow_redirects 是否允许重定向,默认:True;
stream

是否以字节流形式获取内容并下载;

下载文件时候使用;

verify 是否验证SSL证书,默认为True;
cert 本地SSL证书路径;

 4、请求返回对象 Response

resp = requests.request('get',url, **kwargs);

 resp:响应对象,一个包含服务器资源的响应对象;

属性 作用
resp.request 获取Http请求对象  ;返回: <PreparedRequest [GET]>
resp.status_code http请求返回状态码 ; 200表示成功;
resp.text http响应的字符串形式;                                           
resp.content http响应的二进制形式;例如:图片,音频,视频等;
resp.encoding 从http的header中响应编码方法;
resp.apparent_encoding 从内容中分析响应内容编码方式;(备选编码方式)
方法 作用
resp.raise_for_status() 该方法内部判断resp.status_code == 200,不等则抛异常
resp.json()

得到对应的json格式数据; 

补充:Python有json模块,可以实现字符串和json的转换;

注意:★★★★★

  • encoding属性: 如果header中不存在charset,则认为是ISO-8859-1编码;
  • text属性:根据encoding属性的编码方式显示网页内容;
  • 当编码方式不一致,可能会出现乱码;
  • apparent_encoding属性:是根据网页内容分析出的编码方式;看做encoding属性的备选;

5、requests访问时的可能异常

异常 说明
requests.ConnectionError 网络连接异常,如:拒绝连接,DNS查询失败等
requests.HTTPError         http错误异常
requests.URLRequired URL缺失异常
requests.ToolManyRedirects 超过最大重定向次数,产生重定向异常
requests.ConnectTimeout 连接远程服务器超时异常
requests.Timeout 请求URL超时,产生超时异常

response对象提供了一个raise_for_status()方法,该方法内部对status_code进行判断,如果状态码不是200 ,则抛出HttpError异常;文章来源地址https://www.toymoban.com/news/detail-808324.html

到了这里,关于python爬虫02-requests库使用01的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python爬虫开发基础⑪】requests库概述(GET和POST请求)

    🚀 个人主页 :为梦而生~ 关注我一起学习吧! 💡 专栏 :python网络爬虫从基础到实战 欢迎订阅!后面的内容会越来越有意思~ 💡 往期推荐 : ⭐️前面比较重要的 基础内容 : 【Python爬虫开发基础⑥】计算机网络基础(Web和HTTP) 【Python爬虫开发基础⑦】urllib库的基本使用

    2024年02月12日
    浏览(42)
  • python爬虫request和BeautifulSoup使用

    1.安装request 2.引入库 3.编写代码 发送请求 我们通过以下代码可以打开豆瓣top250的网站 但因为该网站加入了反爬机制,所以我们需要在我们的请求报文的头部加入User-Agent的信息 User-Agent可以通过访问网站时按f12查看获取 我们可以通过response的ok属性判断是否请求成功 此时如果

    2024年02月08日
    浏览(48)
  • Python爬虫基础:使用requests模块获取网页内容

    了解如何使用Python中的requests模块进行网页内容获取,包括获取网页步骤、代码实现、状态码查看、提取信息等。

    2024年02月22日
    浏览(82)
  • 【100天精通python】Day42:python网络爬虫开发_HTTP请求库requests 常用语法与实战

    目录 1 HTTP协议 2  HTTP与HTTPS 3 HTTP请求过程  3.1 HTTP请求过程 3.2 GET请求与POST请求

    2024年02月12日
    浏览(57)
  • 【Python爬虫】requests库get和post方法使用

    requests库是一个常用于http请求的模块,性质是和urllib,urllib2是一样的,作用就是向指定目标网站的后台服务器发起请求,并接收服务器返回的响应内容。 1. 安装requests库 使用pip install requests安装 如果再使用pip安装python模块出现timeout超时异常,可使用国内豆瓣源进行安装。

    2024年02月22日
    浏览(42)
  • Python爬虫教程:使用requests、wget和urllib3下载图片和PDF文件

    本文介绍了如何使用Python中的requests、wget和urllib3库下载图片和PDF文件,通过示例代码演示了如何通过Selenium定位文件地址后,使用这三种方法进行文件下载操作。

    2024年02月09日
    浏览(69)
  • 网络爬虫开发(五)01-爬虫高级——Selenium简介 & 根据平台选择安装selenium-webdriver包 & Selenium的基本使用

    网络爬虫开发(五)01-爬虫高级——Selenium简介 根据平台选择安装selenium-webdriver包 Selenium的基本使用 学习目标: 使用Selenium库爬取前端渲染的网页 反反爬虫技术 官方原文介绍: Selenium automates browsers . That’s it! What you do with that power is entirely up to you. Primarily, it is for automating web

    2024年01月24日
    浏览(36)
  • python 爬虫热身篇 使用 requests 库通过 HTTP 读取网络数据,使用 pandas 读取网页上的表格,使用 Selenium 模拟浏览器操作

    在过去,收集数据是一项繁琐的工作,有时非常昂贵。机器学习项目不能没有数据。幸运的是,我们现在在网络上有很多数据可供我们使用。我们可以从 Web 复制数据来创建数据集。我们可以手动下载文件并将其保存到磁盘。但是,我们可以通过自动化数据收集来更有效地做

    2023年04月08日
    浏览(67)
  • python爬虫—requests

    类型 : models.Response r.text : 获取网站源码 r.encoding :访问或定制编码方式 r.url :获取请求的 url r.content :响应的字节类型 r.status_code :响应的状态码 r.headers :响应的头信息 找登录接口  找参数的值 python代码 登录超级鹰官网:超级鹰验证码识别-专业的验证码云端识别服务

    2024年02月10日
    浏览(37)
  • python-网络爬虫.Request

    Request python中requests库使用方法详解: 一简介:         Requests 是Python语言编写,基于urllib,         采用Apache2 Licensed开源协议的 HTTP 库。         与urllib相比,Requests更加方便,处理URL资源特别流畅。         可以节约我们大量的工作,建议爬虫使用Requests库

    2024年02月14日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包