爬虫学习(1)--requests模块的使用

这篇具有很好参考价值的文章主要介绍了爬虫学习(1)--requests模块的使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

什么是爬虫

爬虫是一种自动化工具,用于从互联网或其他计算机网络上获取数据。它可以模拟人的行为,自动访问网页,提取感兴趣的数据,并将其存储到本地计算机或数据库中。爬虫通常用于搜索引擎、数据分析、信息聚合等领域,也被许多企业用于市场调研、竞争分析、用户行为分析等。一些爬虫可能会被用于恶意用途,如扫描漏洞、盗取信息等,因此使用爬虫时应遵守相关法律法规和伦理规范。

爬虫工作的流程图

爬虫学习(1)--requests模块的使用,爬虫入门,爬虫,python

正文

1. 认识requests模块

  urllib是python中请求URL连接的官方标准库,在python2中分为urllib and urllib2,在python3中整合成urllib。requests模块是在urllib3模块基础上进行高度封装,使用更方便,更加人性化。

2.安装requests模块

win+R后输入cmd,之后输入以下的命令即可。

pip install requests

爬虫学习(1)--requests模块的使用,爬虫入门,爬虫,python

使用pychram的用户:File->Settings->Progect,此界面有加号,可以自行安装

使用anaconda的用户:默认就有了

import requests

3. 发起GET请求

GET请求方法

发送网络请求指的是向一个特定的网络地址或URL,向服务器发送请求,以获取数据或执行操作。网络请求可以包含各种数据和参数,例如用户输入、查询条件、身份验证令牌等。发送网络请求是Web应用程序和移动应用程序等客户端应用程序与服务器端应用程序之间通信的关键步骤。常见的网络请求方法包括GET、POST、PUT、DELETE等。

import requests	# 导入requests模块
response = requests.get('http://www.baidu.com')
发送带参数的请求

发送带参数的请求的意义是可以将需要发送的数据以参数的形式传递给服务器,服务器可以根据不同的参数值做出不同的响应。对于不同的业务场景,可以使用不同的参数来控制服务器的行为,例如:

  • 在搜索引擎中,可以通过参数来指定搜索关键词、排序方式、分页等信息,以得到不同的搜索结果。
  • 在电商网站中,可以通过参数来指定商品类别、价格区间、品牌等信息,以筛选出符合条件的商品。
  • 在社交网络中,可以通过参数来指定用户ID、关注列表、粉丝列表等信息,以获取相应的用户信息和社交关系。
import requests	# 导入requests模块
payload = {'key1': 'value1', 'key2': 'value2'}	# 字符串字典
r = requests.get("http://www.baidu.com/", params=payload)
print(r.url)
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}	# 将一个列表作为值传入
r = requests.get('http://www.baidu.com/', params=payload)
print(r.url)
r = requests.get("https://www.baidu.com/s?wd=长春&ie=utf-8&tn=06136131_11_oem_dg")
#百度搜索关键字与“长春”有关的信息
print(r.url)
r = requests.get("https://www.baidu.com/s?wd=北京&ie=utf-8&tn=06136131_11_oem_dg")
print(r.url)

运行结果:

爬虫学习(1)--requests模块的使用,爬虫入门,爬虫,python

爬虫学习(1)--requests模块的使用,爬虫入门,爬虫,python

定制请求头headers

请求头是HTTP协议中用于传输请求信息的一部分,它包含了一些关于请求的元数据,如请求类型、请求资源地址、请求参数、请求的来源等。常见的请求头字段包括: User-Agent (浏览器或客户端的身份标识)、Accept(客户端能够接收的MIME类型)、Cookie(请求携带的cookie数据)、Referer(请求前一个页面的地址)、Authorization(身份认证信息)、Content-Type(请求参数的MIME类型)、Content-Length(请求参数的长度)等。

如:User-Agent= 'Mozilla/5.0 (Windows NT 10.0; WOW64)

import requests	# 导入requests模块
url = 'http://www.baidu.com/s?wd=你是我的神'
headers = {
        'Content-Type': 'text/html;charset=utf-8',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
    }
r = requests.get(url,headers=headers)
print(r.headers)

 

爬虫学习(1)--requests模块的使用,爬虫入门,爬虫,python

4.打开指定网站 webbrowser

import webbrowser
webbrowser.open('https://blog.csdn.net/weixin_53197693/article/details/135482157?spm=1001.2014.3001.5502')

 运行一下,就会跳转到对应的网页

爬虫学习(1)--requests模块的使用,爬虫入门,爬虫,python文章来源地址https://www.toymoban.com/news/detail-771882.html

到了这里,关于爬虫学习(1)--requests模块的使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬虫基础:使用requests模块获取网页内容

    了解如何使用Python中的requests模块进行网页内容获取,包括获取网页步骤、代码实现、状态码查看、提取信息等。

    2024年02月22日
    浏览(88)
  • Python爬虫之requests模块

    requests文档http://docs.python-requests.org/zh_CN/latest/index.html 1、requests模块的作用: 发送http请求,获取响应数据 2、requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装 pip/pip3 install requests 3、requests模块发送get请求 需求:通过requests向百度首页发送请求,获取该页面

    2024年02月09日
    浏览(44)
  • Python爬虫—requests模块简单应用

    requests的作用与安装 作用:发送网络请求,返回响应数据 安装:pip install requests requests模块发送简单的get请求、获取响应 需求:通过requests向百度首页发送请求,获取百度首页的数据 response的常用属性: response.text 响应体str类型 response.encoding 从HTTP header中猜测的响应内容的编

    2024年01月24日
    浏览(59)
  • python爬虫——request模块讲解,Python详解

    对于GET方式的请求,浏览器会把http header和data一并发送出去,服务器响应200(返回数据); 而对于POST, 浏览器先发送header,服务器响应100 continue,浏览器再发送data,服务器响应200 ok(返回数据)。 (二)http常见请求参数 url:请求url地址 headers:请求头 **data:发送编码为表

    2024年04月26日
    浏览(36)
  • python爬虫_requests入门指引

    大家好,我是yma16,本文分享关于python的requests库用法。 该系列文章: python爬虫_基本数据类型 python爬虫_函数的使用 requests可以用来发送http请求。 对比浏览器发送的请求 requests是在python的运行环境发送请求,不存在限制跨域,无ui界面,优势在于自动化 浏览器发送请求被浏

    2024年02月11日
    浏览(66)
  • Python 爬虫之 requests模块(ua伪装、代理、cookies、防盗链 Referer)、re模块、xpath模块、selenium

    下载 发送 get 请求 案例:百度 发送 post 请求 案例:百度翻译 UA 伪装 代理 cookies 登录 案例:17k小说网 防盗链 Referer 案例:梨视频 findall search finditer 预加载 提前写好正则表达式 匹配换行 re.S 在 html 中使用 原子组使用别名 爬取豆瓣电影 https://movie.douban.com/chart lxml.etree.XMLSy

    2024年01月24日
    浏览(41)
  • python爬虫基础入门——利用requests和BeautifulSoup

    (本文是自己学习爬虫的一点笔记和感悟) 经过python的初步学习,对字符串、列表、字典、元祖、条件语句、循环语句……等概念应该已经有了整体印象,终于可以着手做一些小练习来巩固知识点,写爬虫练习再适合不过。 爬虫的本质就是从网页中获取所需的信息,对网页

    2024年02月15日
    浏览(61)
  • Python爬虫的requests(学习于b站尚硅谷)

      说明:该文章是学习 尚硅谷 在B站上分享的视频 Python爬虫教程小白零基础速通 的 p51-104 而记录的笔记,笔记来源于本人,关于python基础可以去CSDN上阅读本人学习黑马程序员的笔记。 若有侵权,请联系本人删除 。笔记难免可能出现错误或笔误,若读者发现笔记有错误,

    2024年02月13日
    浏览(34)
  • 【Python_requests学习笔记(五)】requests模块中proxies参数用法

    此篇文章中介绍requests模块中的代理IP参数proxies的详细用法。 1、proxies参数介绍 proxies参数:代替本机的IP地址, 去对接网络的IP地址;其作用是,隐藏真实IP,避免被目标网站封掉。 2、代理IP分类 常见两种分类依据:匿名度、协议 2.1、根据匿名度分类 高匿代理:Web端只能看

    2024年02月13日
    浏览(40)
  • 【Python_requests学习笔记(三)】requests模块中params参数用法

    此篇文章中介绍requests模块中的查询参数params的详细用法和使用环境。 1、params参数介绍 requests模块发送请求时,有两种携带参数的方法:1、params 2、data 其中, params在get请求中使用,data在post请求中使用 params的数据类型为字典类型。 2、params参数作用 对url地址中的查询参数进

    2024年02月08日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包