User-Agent(用户代理)是什么?

这篇具有很好参考价值的文章主要介绍了User-Agent(用户代理)是什么?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

User-Agent(用户代理)是什么?

User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。

网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力,禁止网爬虫大量地访问网站,以免给网站服务器带来压力。这里要学习的 User-Agent 就是反爬策略的第一步。

网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。如果是,网站首先对该 IP 进行预警,对其进行重点监控,当发现该 IP 超过规定时间内的访问次数, 将在一段时间内禁止其再次访问网站。

服务器只想给浏览器提供服务,而不想给爬虫程序提供服务,使用 UA 就是要伪装成浏览器向服务器发送请求并获取相应


获取User-Agent 请求头

想要知道自己的浏览器的User-Agent 请求头是什么,可以通过以下方式获得:

  • 打开 edge
  • 随便一个页面,按F12,打开开发者工具
    • User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫
  • 点击“网络”或“network”
    • User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫
  • F5 刷新页面,可以看到浏览器向服务器发送的全部请求
    • User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫
  • 随便找到一个请求,点击,找到User-Agent 后面的内容,如果需要使用,复制即可
    • User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫

爬虫程序的 UA信息

通过向 HTTP 测试网站(http://httpbin.org/)发送 GET 请求来查看请求头信息,从而获取爬虫程序的 UA。代码如下所示:

import urllib.request

response = urllib.request.urlopen('http://httpbin.org/get')
html = response.read().decode('utf-8')
print(html)

User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫
从输出结果可以看出,User-Agent 竟然是 Python-urllib/3.12,这显然是爬虫程序访问网站。因此就需要重构 User-Agent,将其伪装成“浏览器”访问网站。

注意:httpbin.org这个网站能测试 HTTP 请求和响应的各种信息,比如 cookie、IP、headers 和登录验证等,且支持 GET、POST 等多种方法,对 Web 开发和测试很有帮助。

重构爬虫UA信息

使用urllib.request.Request()方法重构 User-Agent 信息,代码如下所示:

from urllib import request

# 定义变量:URL 与 headers
url = 'http://httpbin.org/get'  # 向测试网站发送请求
# 重构请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'}
# 1、创建请求对象,包装ua信息
req = request.Request(url=url, headers=headers)
# 2、发送请求,获取响应对象
res = request.urlopen(req)
# 3、提取响应内容
html = res.read().decode('utf-8')
print(html)

User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫
上述代码重构了 User-Agent 字符串信息,这样就解决了网站通过识别 User-Agent 来封杀爬虫程序的问题。

构建User-Agnet代理池

在编写爬虫程序时,一般都会构建一个 User-Agent (用户代理)池,就是把多个浏览器的 UA 信息放进列表中,然后再从中随机选择。构建用户代理池,能够避免总是使用一个 UA 来访问网站,因为短时间内总使用一个 UA 高频率访问的网站,可能会引起网站的警觉,从而封杀掉 IP。

在 Pycharm 工作目录中定义一个 ua_info.py 文件,并将以下 UA 信息以列表的形式粘贴到该文件中,如下所示:

ua_list = [
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
    'User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
    'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
    ' Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1',
    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1',
    ' Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]

User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫
可以使用专门第三方的模块来随机获取浏览器 UA 信息,不过该模块需要单独安装,安装方式如下:

pip install fake-useragent

下载安装成功后,演示如下代码:

from fake_useragent import UserAgent
#实例化一个对象
ua=UserAgent()
#随机获取一个ie浏览器ua
print(ua.ie)
print(ua.ie)
#随机获取一个火狐浏览器ua
print(ua.firefox)
print(ua.firefox)

User-Agent(用户代理)是什么?,Python爬虫,Python,python,开发语言,学习,c语言,爬虫文章来源地址https://www.toymoban.com/news/detail-808639.html

到了这里,关于User-Agent(用户代理)是什么?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • {工作记录}遇到过的网络攻击合集&&爬虫User-Agent记录..{持续更新}

    奇怪的攻击增加了!Exp!up!up! (最新更新时间:2022年10月31日 更新内容:爬虫UA头) “看不懂是啥攻击,所以记一下。”——harusaruhi 2022年5月1日 2022年5月1日 2022年5月2日 2022年5月3日 2022年5月4日 2022年5月8日 2022年5月21日 2022年5月27日 2022年10月5日 2024年1月22日 User-Agent:Xenu Link

    2023年04月14日
    浏览(33)
  • 如何在Puppeteer中设置User-Agent来绕过京东的反爬虫机制?

    京东作为中国最大的电商平台,为了保护其网站数据的安全性,采取了一系列的反爬虫机制。然而,作为开发者,我们可能需要使用爬虫工具来获取京东的数据。 正文 Puppeteer 是一个由 Google 开发的 Node.js 库,它提供了高级的 API,用于控制无头浏览器(Headless Browser),如 C

    2024年02月08日
    浏览(25)
  • 浏览器UA user-agent、windows各版本内核、搜索引擎爬虫UA归类

    ### 浏览器userAgent: 实际上很多浏览器套了壳,核心都是chrome和safari,大部分浏览器UA里面看倒数第二个或第一个字段就可以判断出是啥浏览器了,同一浏览器的UA版本上可能存在差异,但大致相同。 **servo 不支持es6** ```Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:37.0) Servo/1.0 Firefox

    2024年02月02日
    浏览(57)
  • 3. 爬取自己CSDN博客列表(自动方式)(分页查询)(网站反爬虫策略,需要在代码中添加合适的请求头User-Agent,否则response返回空)

    1. 如何爬取自己的CSDN博客文章列表(获取列表)(博客列表)(手动+python代码方式) 2. 获取自己CSDN文章列表并按质量分由小到大排序(文章质量分、博客质量分、博文质量分)(阿里云API认证) https://dontla.blog.csdn.net/?type=blog https://blog.csdn.net/community/home-api/v1/get-business-lis

    2024年02月12日
    浏览(31)
  • 从User-Agent获取浏览器类型

    User-Agent首部包含一个特征字符串,用来让网络协议的对端来识别发起请求的用户代理软件的应用类型、操作系统、软件开发商以及版本号。  

    2024年02月15日
    浏览(25)
  • chrome extensions插件declarativeNetRequest修改user-agent方法manifest v3版

    有能力的可以看官方文档:https://developer.chrome.com/docs/extensions/reference/declarativeNetRequest/#manifest 有一个需求,想通过插件的方式,修改请求头里面的user-agent,比如修改为iphone的头: 原本浏览器的请求头是: 通过查询发现,v2版本修改请求头的方式为:但是这种方式已经被废弃

    2024年02月01日
    浏览(63)
  • 在Openresty中使用lua语言向请求浏览器返回请求头User-Agent里边的值

    可以参考《Linux学习之Ubuntu 20.04在https://openresty.org下载源码安装Openresty 1.19.3.1,使用systemd管理OpenResty服务》安装Openresty。 然后把下边的内容写入到openresty配置文件 /usr/local/openresty/nginx/conf/nginx.conf (根据实际情况进行选择文件): 然后 sudo openresty 启动openresty。 最后在浏览器里

    2024年02月07日
    浏览(52)
  • 优化Python代理爬虫的应用

    当我们在资源受限的环境中使用Python代理爬虫时,我们需要采取一些优化措施,以确保程序的高效性和稳定性。在本文中,我将分享一些关于如何优化Python代理爬虫在资源受限环境下的应用的实用技巧。 首先我们来了解,哪些情况算是资源受限: 1. 带宽限制:网络带宽有限

    2024年02月11日
    浏览(27)
  • python爬虫-代理ip理解

    目录 1、为什么使用代理IP 2、代理IP 3、IP池 4、代理分类: 5、python中使用代理IP 6、如何找可以使用的代理IP 7、拿到IP后,测试IP的有效性 8、扩展理解正向代理和反向代理 1、为什么使用代理IP 就是为了防止ip被封禁,提高爬虫的效率和稳定;  反反爬使用代理ip是非常必要的

    2024年02月02日
    浏览(33)
  • 【Python爬虫笔记】爬虫代理IP与访问控制

    一、前言 在进行网络爬虫的开发过程中,有许多限制因素阻碍着爬虫程序的正常运行,其中最主要的一点就是反爬虫机制。为了防止爬虫程序在短时间内大量地请求同一个网站,网站管理者会使用一些方式进行限制。这时候,代理IP就是解决方案之一。 本文主要介绍如何在爬

    2024年02月09日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包