爬虫(Requests库get和post应用)

这篇具有很好参考价值的文章主要介绍了爬虫(Requests库get和post应用)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Requests库

介绍

  • Requests是Python中用于进行HTTPS请求的库。它提供了一种简单直观的API,用于发送HTTP,HTTPS请求和处理响应。

request.get()函数

参数

  • url,一般放置需要请求的URL

  • headers,一般用于User-agent(UA)伪装,避免服务器识别出机器请求,headers的获取方法可以为浏览器单击右键选择检查,随后点击网络,刷新(fn+F5),随后随机点击一个数据包,找到user-agent字段

  • proxies, 一般用于批量爬取,目的是避免了服务器识别同一个机器频繁请求从而导致禁止该主机爬取

  • cookies,发送请求的时候携带上cookies(字典形式),方便服务器保存用户信息,cookies在浏览器单击右键选择检查,随后点击网络,刷新(fn+F5),寻找到一个cookies字段。
    爬虫(Requests库get和post应用)

  • parms ,传入其他参数,方便方便灵活使用

实例

improt request
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
url = 'https://baidu.com'
proxies = {'http': 'http://10.0.0.1:8080', 'https': 'https://10.0.0.1:8080'}
response = request.get(url=url, headers=header)
print(response.text) # 显示的是获取到的html文档

request.get()返回结果

  • status_code,为返回状态码,如果是200,证明请求成功
  • text, 返回的html文档元素
  • content,因为请求的可能不是网址,如果url不是网址,就将内容返回到content中。
  • response.json()方法,data=response.json(),data返回将content处理为json类型的数据

随后请求到可以用Xpath,bs4等方法进行解析数据。

request.post()函数

介绍

  • 主要是向指定的url发送POST请求,发送数据,返回响应的文本/Response对象,返回值为一个response.Response对象

参数

  • url,需要发送的参数
  • data,需要传入的数据,可以为字典,元组列表,字节,或者是要发送到URL的文件对象
  • json,发送到URL的JSON对象
  • cookies,跟上述get方法类似
  • proxies,跟上述的get方法类似

例子

import requests
url = 'https://www.begtut.com/try/python/demopage.php'
data= {'somekey': 'somevalue'}
response = requests.post(url, data = data)
print(response) 

备注

可以看结合Xpath运用等食用。链接如下。Xpath介绍以及语法文章来源地址https://www.toymoban.com/news/detail-498877.html

到了这里,关于爬虫(Requests库get和post应用)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 利用Python进行网络爬虫:Beautiful Soup和Requests的应用【第131篇—Beautiful Soup】

    在网络数据变得日益丰富和重要的今天,网络爬虫成为了获取和分析数据的重要工具之一。Python作为一种强大而灵活的编程语言,在网络爬虫领域也拥有广泛的应用。本文将介绍如何使用Python中的两个流行库Beautiful Soup和Requests来创建简单而有效的网络爬虫,以便从网页中提取

    2024年03月17日
    浏览(39)
  • Python爬虫——requests_get请求

    总结: 参数使用params传递 参数无需重新编码 不需要请求对象定制 请求资源路径中的?可加也可不加

    2024年02月13日
    浏览(35)
  • Python爬虫的学习day02 requests 模块post 函数, lmxl 模块的 etree 模块

    1.1 post 函数的参数 (简单版) 参数1:  url     网络地址 参数2:   data   请求数据 (一般数据是  账号,密码) 参数3:    headers  头请求  (User-Agent:  第一章讲过) 1.2  post 请求中 url 参数的获取 1.2.1 首先 打开一个 登录界面 。(这里以淘宝的登录界面为样例)

    2024年02月14日
    浏览(25)
  • python3 爬虫相关学习3:response= requests.get(url)的各种属性

    目录 1  requests.get(url) 的各种属性,也就是response的各种属性 2 下面进行测试 2.1 response.text 1.2  response.content.decode() 1.2.1 response.content.decode() 或者  response.content.decode(\\\"utf-8\\\") 1.2.2   response.content.decode(\\\"GBK\\\") 报错 1.2.3 关于编码知识 1.3 response.url  1.4 response.status_code 插入知识:

    2024年02月03日
    浏览(26)
  • Python 爬虫的学习 day01 ,爬虫的基本知识, requests 和 charde模块, get函数的使用

    1.1什么是网络爬虫 网络爬虫,又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.2  网络爬虫的特点 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万

    2024年02月15日
    浏览(23)
  • Python爬虫 —— urllib库的使用(get/post请求+模拟超时/浏览器)

    爬虫简介 :网络爬虫就是按照一定规则,自动抓取互联网信息的程序或脚本,由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析就是爬虫要做的工作 为什么我们把它称为爬虫(Spider)嘞?互联网就像是一张大网,而每一个网页就是这张大网上

    2023年04月13日
    浏览(29)
  • 关于Python网络爬虫requests库的介绍

    这篇文章主要介绍了关于Python网络爬虫requests库,而很多时候这些数据存储在网页中,手动下载需要花费的时间太长,这时候我们就需要网络爬虫帮助我们自动爬取这些数据,需要的朋友可以参考下 简单来说,就是构建一个程序,以自动化的方式从网络上下载、解析和组织数据

    2024年02月01日
    浏览(25)
  • Python爬虫—requests模块简单应用

    requests的作用与安装 作用:发送网络请求,返回响应数据 安装:pip install requests requests模块发送简单的get请求、获取响应 需求:通过requests向百度首页发送请求,获取百度首页的数据 response的常用属性: response.text 响应体str类型 response.encoding 从HTTP header中猜测的响应内容的编

    2024年01月24日
    浏览(37)
  • Python爬虫——Requests库常用方法及参数介绍

    Requests 库中定义了七个常用的请求方法,这些方法各自有着不同的作用,在这些请求方法中 requests.get() 与 requests.post() 方法最为常用。请求方法如下所示: 常用请求方法 方法 说明 requests.request() 构造一个请求对象,该方法是实现以下各个方法的基础。 requests.get() 获取HTML网页

    2024年02月16日
    浏览(31)
  • Python 使用requests模块进行ip代理时报错:AttributeError: ‘str‘ object has no attribute ‘get‘

    我正在进行代理ip的测试,但报了这么个错误: AttributeError: \\\'str\\\' object has no attribute \\\'get\\\' 从“芝麻代理”获取代理ip,用这些代理ip访问百度,如果返回状态码200,就算成功 当我执行上面的代码后,报了这么个错误: AttributeError: \\\'str\\\' object has no attribute \\\'get\\\' 经过多次排查,确定

    2024年02月03日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包