网站有反爬机制就爬不了数据?那是你不会【反】反爬

这篇具有很好参考价值的文章主要介绍了网站有反爬机制就爬不了数据?那是你不会【反】反爬。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

一、什么是代理IP

二、使用代理IP反反爬

1.获取代理IP

2.设置代理IP

3.验证代理IP

4.设置代理池

5.定时更新代理IP

三、反反爬案例

1.分析目标网站

2.爬取目标网站

四、总结


前言

爬虫技术的不断发展,使得许多网站都采取了反爬机制,以保护自己的数据和用户隐私。常见的反爬手段包括设置验证码、IP封锁、限制访问频率等等。

但是,这些反爬机制并不能完全阻止爬虫的进攻,因为只要有技术,就一定有方法来破解。本文将介绍如何使用代理IP来反反爬,以及相关的Python代码和案例。 

网站有反爬机制就爬不了数据?那是你不会【反】反爬,python,php,开发语言,tcp/ip,网络

一、什么是代理IP

代理IP(Proxy IP)是指在访问网络时,使用的是代理服务器的IP地址,而不是自己的IP地址。代理服务器相当于一座桥梁,将我们请求的数据先代理一下,再转发到目标网站,从而达到隐藏我们真实IP地址的效果。

代理IP具有隐藏身份、突破访问限制、提高访问速度、保护个人隐私等作用。在反爬方面,使用代理IP可以很好地避免被封锁IP,从而爬取目标网站的数据。

二、使用代理IP反反爬

1.获取代理IP

获取代理IP最常见的方式是通过爬取免费代理网站或者购买收费代理服务。免费代理网站的免费IP质量参差不齐,且容易被封锁,而收费代理服务的IP质量相对较高,可靠性更高。

在获取代理IP时,需要注意以下几点:

  1. 获取的代理IP必须是可用的,否则无法正常访问目标网站;
  2. 获取的代理IP需要定时更新,避免被封锁或失效;
  3. 不要过于频繁地使用同一个代理IP,否则容易被目标网站识别出来。
2.设置代理IP

在使用代理IP时,需要将其设置到请求头中。以requests库为例,可以通过以下代码设置代理IP:

import requests

proxies = {
    'http': 'http://ip:port',
    'https': 'https://ip:port'
}

response = requests.get(url, proxies=proxies)

其中,`ip`和`port`是代理IP的地址和端口号,根据实际情况进行设置。

3.验证代理IP

在进行爬取之前,需要先验证代理IP是否可用。一般来说,验证代理IP的可用性可以通过访问http://httpbin.org/ip网站来进行验证。以requests库为例,可以通过以下代码验证代理IP是否可用:

import requests

proxies = {
    'http': 'http://ip:port',
    'https': 'https://ip:port'
}

try:
    response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=10)
    if response.status_code == 200:
        print('代理IP可用')
    else:
        print('代理IP不可用')
except:
    print('代理IP请求失败')
4.设置代理池

单个代理IP的可用时间有限,而且代理IP的质量也参差不齐,因此需要设置一个代理池,从中随机选择一个可用的代理IP进行访问。

代理池的实现可以通过列表、队列或数据库等方式进行。以列表为例,可以通过以下代码实现代理池的设置:

proxy_pool = [
    'http://ip1:port1',
    'http://ip2:port2',
    'http://ip3:port3',
    ...
]

proxy = random.choice(proxy_pool)

proxies = {
    'http': proxy,
    'https': proxy
}

其中,`random.choice(proxy_pool)`表示从代理池中随机选择一个代理IP进行访问。

5.定时更新代理IP

为了避免代理IP被封锁或失效,需要定时更新代理IP。更新代理IP的方法有很多种,可以通过爬取免费代理网站、购买收费代理服务或者自己搭建代理服务器等方式进行。在更新代理IP时,需要注意以下几点:

  1. 更新的代理IP必须是可用的;
  2. 更新的代理IP需要添加到代理池中,并在下一次请求中随机选择使用。

三、反反爬案例

下面以爬取豆瓣电影TOP250为例,介绍如何使用代理IP来反反爬。

1.分析目标网站

豆瓣电影TOP250的网址为:https://movie.douban.com/top250。我们需要获取其中的电影名称、电影链接、电影评分等信息。

打开浏览器的开发者工具,可以发现目标网站的数据请求链接为:https://movie.douban.com/top250?start=0&filter=,其中的`start`表示起始位置,每页有25条数据,共10页数据。我们需要遍历这10页数据,获取其中的电影信息。

2.爬取目标网站

首先,需要获取代理IP,这里使用的是免费代理网站,代码如下:

import requests
from bs4 import BeautifulSoup
import random

def get_proxy():
    url = 'https://www.zdaye.com/'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    trs = soup.find_all('tr')
    proxy_list = []
    for tr in trs[1:]:
        tds = tr.find_all('td')
        ip = tds[1].text
        port = tds[2].text
        proxy = 'http://{}:{}'.format(ip, port)
        proxy_list.append(proxy)
    return proxy_list

其中,`get_proxy()`函数用于获取代理IP,返回的是代理IP列表。

接下来,需要设置代理池,代码如下:

proxy_pool = get_proxy()

随机选择一个代理IP进行访问,代码如下:

proxy = random.choice(proxy_pool)

proxies = {
    'http': proxy,
    'https': proxy
}

然后,开始爬取目标网站,代码如下:

import requests
from bs4 import BeautifulSoup
import random

def get_proxy():
    url = 'https://www.zdaye.com/'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    trs = soup.find_all('tr')
    proxy_list = []
    for tr in trs[1:]:
        tds = tr.find_all('td')
        ip = tds[1].text
        port = tds[2].text
        proxy = 'http://{}:{}'.format(ip, port)
        proxy_list.append(proxy)
    return proxy_list

def get_movie_info(url, proxies):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers, proxies=proxies)
    soup = BeautifulSoup(response.text, 'html.parser')
    items = soup.find_all('div', class_='info')
    movie_list = []
    for item in items:
        name = item.find('span', class_='title').text
        href = item.find('a')['href']
        rating = item.find('span', class_='rating_num').text
        movie_info = {
            'name': name,
            'href': href,

            'rating': rating
        }
        movie_list.append(movie_info)
    return movie_list

if __name__ == '__main__':
    proxy_pool = get_proxy()
    movie_list = []
    for i in range(10):
        url = 'https://movie.douban.com/top250?start={}&filter='.format(i*25)
        proxy = random.choice(proxy_pool)
        proxies = {
            'http': proxy,
            'https': proxy
        }
        movie_list += get_movie_info(url, proxies)
    print(movie_list)

在运行代码时,可能会出现代理IP不可用的情况,可以通过多次尝试或者定时更新代理IP来解决。

四、总结

本文介绍了如何使用代理IP来反反爬,并给出了相关的Python代码和案例。在实际爬取数据时,还需要注意以下几点:

  1. 避免频繁请求目标网站,尽量减少对目标网站的负担;
  2. 模拟真实请求,设置合理的User-Agent、Referer等请求头参数;
  3. 处理反爬机制,如验证码、JS渲染、动态IP等。

网站有反爬机制就爬不了数据?那是你不会【反】反爬,python,php,开发语言,tcp/ip,网络

总之,反爬机制是爬虫开发中不可避免的挑战,需要不断学习技术、探索方法、思考策略,才能够更好地应对挑战并获取所需数据。文章来源地址https://www.toymoban.com/news/detail-732177.html

到了这里,关于网站有反爬机制就爬不了数据?那是你不会【反】反爬的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 整理网上关于selenium的反爬机制以及解决办法。

    只是收集目前找到的一些关于selenium的反爬问题。 未亲自尝试,不保证效果。也会持续跟进相关的内容继续整理。 现象:用户正常访问该值为false。使用selenium时该值为true。 解决:去除该参数 现象:登录是绕不开的话题,我也不知各个网站都是怎么验证登录的。有没有什么

    2024年02月03日
    浏览(44)
  • Selenium Wire编辑header破解反爬机制和访问限制

    介绍 Selenium Wire扩展了Selenium的Python绑定,使您能够访问浏览器发出的底层请求。您已使用Selenium相同的方式编写代码,但是您获得了额外的api,用于检查请求和响应,并动态地对它们进行更改。(注:意思是这个不仅包含了selenium的功能,还额外增加了新的扩展功能,引用s

    2024年02月16日
    浏览(43)
  • 某网站JS加密、OB混淆与CSS反爬实战分析

      最近一段时间接触了一些小说网站的业务。发现很多的小说网站,甚至一些小站它们的安全防护措施做的都很到位!例如上次说到的的五秒盾也是存在于一个小说小站。今天要讲的这个网站它集 JS加密 、 ob混淆 、 CSS反爬 于一体 目标站点 : aHR0cHM6Ly93d3cuaG9uZ3NodS5jb20vY29

    2024年02月12日
    浏览(47)
  • 这才是你应该了解的Redis数据结构!

    Redis,作为一种高性能的内存数据库,支持多种数据结构,从简单的字符串到复杂的哈希表。在这篇博文中,我们将深入探讨Redis的一些主要数据结构,并通过详细的例子展示它们的使用。 Redis中的字符串是二进制安全的,可以存储任何数据。让我们通过一个简单的例子来演示

    2024年01月19日
    浏览(49)
  • 大数据-你投的简历真的是你认为的工作么?

    我的个人主页 个人主页 我的B站视频 B站视频 看内容是否包含模型建设、etl、调度、监控、数据质量、数据治理、阿里云组件、spark/flink、熟悉一门语言等这些 例 负责数据体系的研发设计和建设,通过数据产品和数据服务等方式,赋能业务增长; 负责业务的数据建设

    2023年04月15日
    浏览(35)
  • 【OpenCV】多版本那是interesting

    如果多版本安装OpenCV,切勿默认安装,务必每安装一个版本都新建一个目录,这样就会少很多问题。但是安装ROS会不知不觉的将自带的OpenCV安装到默认路径。一样会导致冲突。这时候最好的解决办法还没找到,所以最好的办法就是用ROS自带的OpenCV,虽然有警告,但是可以用呀

    2024年02月09日
    浏览(37)
  • 分类号检索不好用?那是因为你压根没用对分类

    灵活检索专利文献 ,是知产、研发过程中必不可少的一项工作技能,在浩如烟海的文献中精准地搜索到目标内容并总结出具有参考价值点是困难的,而检索技能的培养并不能一蹴而就。 笔者看到太多这样行业新手都有这样的问题: 缺少逻辑,凭感觉做检索,尚未形成系统的

    2024年02月05日
    浏览(32)
  • 风控系统就该这么设计(万能通用),那是相当稳定

    一、背景 1.为什么要做风控? 2.为什么要自己写风控? 3.其它要求 二、思路 1.风控规则的实现 2.调用方式的实现 三、具体实现 1.风控计数规则实现 2.注解的实现 四、测试一下 1.写法 2.Debug看看 1.为什么要做风控?   这不得拜产品大佬所赐,我们的业务目前广泛使用了各种人工智

    2024年02月03日
    浏览(35)
  • 解决MySQL插入不了中文数据问题

    🎈目录🎈 原因⁉ 具体解决方法 1️⃣创建数据库时设置字符集为utf8 2️⃣修改数据库配置文件(比较麻烦) 我们使用MySQL可能会遇到加入中文报错的情况,如下。 报错:非法的字符值 放入 ‘name’    为什么不能存入中文呢?         对于当前数据库 来说,内部存储中

    2024年02月05日
    浏览(77)
  • 谁说35岁是程序员的中年危机?那是他还不知道这些新路子

    我自己今年已有44了,从2021年开始就已经不上班了,在家里已经休息了2年了,我目前也不想出去再上班了。 关于“35岁中年危机”这个说法,相信大家已经如雷贯耳了,让不少年轻人连涉足互联网的步子都不敢迈开,也让很多在职的程序员忧愁不已,甚至开玩笑说35岁之后就

    2023年04月23日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包