Selenium+2Captcha 自动化+验证码识别实战

这篇具有很好参考价值的文章主要介绍了Selenium+2Captcha 自动化+验证码识别实战。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文深入探讨了使用Selenium库进行网页自动化操作,并结合2Captcha服务实现ReCAPTCHA验证码的破解。内容涵盖Selenium的基础知识、验证码的分类、2Captcha服务的使用,以及通过实例进行的详细讲解,最后对实践进行总结和优化思考,为读者提供了一条完整的验证码破解实践路线图。

Selenium+2Captcha 自动化+验证码识别实战

Selenium+2Captcha 自动化+验证码识别实战

一、引言

在现代Web开发中,自动化测试和Web爬虫是很常见的任务。在这两个领域,Selenium是一个被广泛使用的工具,能模拟浏览器操作并对Web页面进行操作和分析。在本篇文章中,我们将首先介绍Selenium的基础知识,然后进一步探讨如何用它来处理另一个常见的Web问题:验证码。

1.1 Selenium简介及其应用场景

Selenium是一个自动化测试工具,主要用于Web应用程序的功能和性能测试。它可以直接运行在浏览器上,支持多种操作系统、浏览器和编程语言。除了测试,Selenium也经常被用在Web爬虫中,用于模拟和自动化浏览器操作。

from selenium import webdriver

driver = webdriver.Firefox()
driver.get('http://www.python.org')
assert "Python" in driver.title
driver.quit()

上面的Python代码展示了一个简单的Selenium脚本,它启动了一个Firefox浏览器,然后访问Python官方网站并检查页面标题中是否包含"Python"这个词。最后,关闭浏览器。

1.2 验证码的目的与类型

验证码,全名为"Completely Automated Public Turing test to tell Computers and Humans Apart",是用于区分用户是机器还是人的公开全自动图灵测试。主要的目的是防止恶意软件和自动化脚本进行骚扰、滥用服务,或进行其他不良行为。

常见的验证码类型包括文本验证码、图形验证码、滑动验证码、点触验证码等。最近,随着机器学习技术的发展,诸如Google的ReCAPTCHA系统,提供了基于用户行为分析的验证码服务,这大大增加了破解的难度。

在接下来的文章中,我们将重点讨论如何使用Selenium来处理这些验证码,尤其是图形验证码和ReCAPTCHA验证码。

二、Selenium知识

Selenium是一个自动化测试工具,主要用于Web应用程序的功能测试。它可以模拟真实的用户行为,例如点击按钮,输入文字,选择下拉菜单等等。因此,Selenium也常常被用于网页爬虫中,来处理JavaScript渲染的页面,或者模拟用户行为。

2.1 Selenium安装和配置

首先,我们需要在我们的机器上安装Selenium。以下是在Python环境中安装Selenium的命令:

pip install selenium

然后,我们还需要下载对应的浏览器驱动,例如Chrome的驱动就是chromedriver。驱动的下载地址通常可以在浏览器的官方网站找到。

2.2 WebDriver简介

WebDriver是Selenium的核心部分,它是一个接口,定义了操作浏览器的一系列方法。每种浏览器都有自己的WebDriver实现,例如ChromeDriver,FirefoxDriver等等。

以下是一个简单的例子,展示了如何使用WebDriver打开一个网页:

from selenium import webdriver

driver = webdriver.Firefox()
driver.get('http://www.google.com/')

上述代码首先创建了一个FirefoxDriver的实例,然后调用了它的get方法打开了Google的首页。

2.3 页面元素定位

Selenium提供了多种定位页面元素的方法,例如通过id、name、class name、tag name、link text、partial link text、xpath、css selector等等。

以下是一些定位元素的例子:

element = driver.find_element_by_id('id_of_element')  # 通过id定位
element = driver.find_element_by_name('name_of_element')  # 通过name定位
element = driver.find_element_by_class_name('class_of_element')  # 通过class name定位
element = driver.find_element_by_tag_name('tag_of_element')  # 通过tag name定位
element = driver.find_element_by_xpath('//div[@class="my_class"]')  # 通过xpath定位
element = driver.find_element_by_css_selector('div.my_class')  # 通过css selector定位

2.4 操作页面元素

得到了页面元素之后,我们就可以对它进行操作了。常见的操作有输入文字、点击按钮、获取元素文本等等。

以下是一些操作元素的例子:

element.send_keys('some text')  # 输入文字
element.click()  # 点击元素
text = element.text  # 获取元素的文本

2.5 等待页面加载

在网页爬虫中,我们经常会遇到需要等待页面加载的情况。Selenium提供了两种等待方式:显式等待和隐式等待。

以下是一个显式等待的例子:

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'id_of_element'))
)

上述代码会等待最多10秒,直到页面中出现了id为'id_of_element'的元素。

2.6 高级操作

Selenium还支持一些高级操作,例如执行JavaScript代码、操作cookies、切换iframe、处理弹窗等等。

以下是一个执行JavaScript代码的例子:

driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')

上述代码执行了一个JavaScript脚本,将页面滚动到底部。这在处理一些需要滚动加载的网页时非常有用。

三、验证码破解:Selenium使用2Captcha服务实现ReCAPTCHA验证码破解

验证码是网络世界的一种普遍存在的安全机制,用于区分人类用户和机器。在此,我们将结合Selenium和一个自动验证码解决方案(TwoCaptcha),来展示如何破解一种常见的验证码——ReCAPTCHA。

1.1 2Captcha服务介绍 cn.2captcha.com

2Captcha是一种基于人工劳动力的验证码识别服务。它提供了一个API接口,允许开发者将无法识别的验证码发送到2Captcha服务。然后2Captcha的工人会手动识别并返回结果。这种服务对处理图像验证码、reCAPTCHA、FunCaptcha等复杂验证码有很高的准确率。2Captcha的主要优点是其优异的精确性和灵活的API,使得开发者可以轻松集成并在不同环境中使用。

cn.2captcha.com

Selenium+2Captcha 自动化+验证码识别实战

支持验证码类型

Selenium+2Captcha 自动化+验证码识别实战

支持支付宝支付

Selenium+2Captcha 自动化+验证码识别实战

3.2 ReCAPTCHA简介

ReCAPTCHA是Google推出的一种验证码服务,它的主要特点是提供一个"我不是机器人"的复选框让用户点击。在用户点击后,ReCAPTCHA会评估用户的行为,判断用户是否为人类。如果判断用户为人类,那么验证就通过了;如果不能确定,那么就会给出一个额外的挑战,例如选择包含某物的图片。

3.3 使用Selenium模拟用户行为

我们可以使用Selenium来模拟用户点击"我不是机器人"的复选框。在Selenium中,我们可以用click方法来模拟点击,例如:

checkbox = driver.find_element_by_id('recaptcha_check')
checkbox.click()

然而,这样做可能还不够,因为ReCAPTCHA会分析用户的行为。例如,如果点击过于迅速或者机械化,那么ReCAPTCHA可能会判定为机器行为。

3.4 使用2Captcha自动解决验证码

如果ReCAPTCHA给出了额外的挑战,我们就需要使用其他的工具来解决它。这里我们选择使用TwoCaptcha,它是一个可以自动解决各种验证码的服务。

在TwoCaptcha中,我们需要提供网站的URL和网站的sitekey,然后它会返回一个解决验证码的答案,我们可以将这个答案填回网页,完成验证。

以下是使用TwoCaptcha解决验证码的示例代码:

solver = TwoCaptcha(API_KEY)
result = solver.recaptcha(sitekey=sitekey, url=url)

3.5 结合Selenium和2Captcha破解验证码

有了Selenium和TwoCaptcha,我们就可以结合起来,形成一个完整的解决方案。具体步骤如下:

  1. 使用Selenium打开网页。
  2. 找到并点击"我不是机器人"的复选框。
  3. 如果出现额外的挑战,使用TwoCaptcha解决,并将答案填回网页。

下面的代码就实现了上述的步骤:

from bs4 import BeautifulSoup
from twocaptcha import TwoCaptcha
from selenium import webdriver

API_KEY = 'your_twocaptcha_api_key'
solver = TwoCaptcha(API_KEY)

# 创建一个WebDriver实例
driver = webdriver.Firefox()

# 使用Selenium打开网页
driver.get('https://www.example.com/')

# 找到并点击"我不是机器人"的复选框
checkbox = driver.find_element_by_id('recaptcha_check')
checkbox.click()

# 如果出现额外的挑战,使用TwoCaptcha解决
sitekey = 'sitekey_from_webpage'
url = driver.current_url
result = solver.recaptcha(sitekey=sitekey, url=url)

# 将答案填回网页
driver.execute_script('document.getElementById("g-recaptcha-response").innerHTML="{}"'.format(result['code']))

3.6 使用Selenium自动填充验证码

Selenium与2Captcha结合,自动填充解析出的验证码。我们可以使用Selenium定位到验证码输入框,并填充解析结果。

# 用Selenium定位验证码输入框
input_box = driver.find_element_by_id('captcha-input-box-id')

# 填入解析出的验证码
input_box.send_keys(captcha_solution)

3.7 处理图片验证码

对于图片验证码,我们可以使用Selenium获取图片元素,并保存为本地文件。然后,我们可以将本地文件上传到2Captcha进行解析。

# 定位到图片元素
image_element = driver.find_element_by_id('captcha-image-id')

# 将图片保存为本地文件
image_element.screenshot('captcha.png')

# 上传到TwoCaptcha进行解析
solver = TwoCaptcha(API_KEY)
result = solver.normal('captcha.png')

# 填入解析出的验证码
input_box = driver.find_element_by_id('captcha-input-box-id')
input_box.send_keys(result)

3.7 处理其他类型的验证码

除了上述提到的验证码类型外,还有一些其他类型的验证码,例如text CAPTCHA、reCaptcha V2、reCaptcha V3、HCaptcha、Funcaptcha,2Captcha服务均可以很好的解决。
Selenium+2Captcha 自动化+验证码识别实战

四、总结

通过本文,我们学习了如何使用Selenium库来模拟浏览器操作,并结合TwoCaptcha服务来实现ReCAPTCHA验证码的自动化破解。现在,让我们来总结一下我们的实践并对未来可能的优化提出一些思考。

通过Selenium,我们可以对浏览器进行各种复杂的控制,从打开网页、填写表单,到模拟点击等等。然而,当我们遇到验证码这种需要人类参与的挑战时,我们需要寻找额外的解决方案。

2Captcha提供了一个很好的解决方案。它可以解决各种类型的验证码,包括我们在本文中提到的ReCAPTCHA。而且,2Captcha提供的API使得我们可以方便地将其整合到我们的Selenium脚本中。

如有帮助,请多关注
个人微信公众号:【TechLead】分享AI与云服务研发的全维度知识,谈谈我作为TechLead对技术的独特洞察。
TeahLead KrisChang,10+年的互联网和人工智能从业经验,10年+技术和业务团队管理经验,同济软件工程本科,复旦工程管理硕士,阿里云认证云服务资深架构师,上亿营收AI产品业务负责人。文章来源地址https://www.toymoban.com/news/detail-620327.html

到了这里,关于Selenium+2Captcha 自动化+验证码识别实战的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 爬虫-selenium自动化(3)-验证码

    #验证码分很多种,奇葩也无处不在:哪个是真茅台,红绿灯,摩托车......(我是个人都看不出来) (๑ó﹏ò๑) #本节内容为selenium自动化实现验证码通过-------字符验证码,点触验证码。            

    2024年01月21日
    浏览(34)
  • 自动化测试识别验证码方法

    在进行自动化测试,我发现很多人卡在验证码无法是识别的路上,往往都是需要开发提供万能码或者取消验证码,但是有的时候需要真实场景模拟,验证码的获取就比较困难,今天分享一个自己亲测的UI自动化测试登陆时验证码输入的有效简单的解决方法。 首先我采用的是

    2024年02月13日
    浏览(32)
  • Python利用Selenium实现自动化验证登录

    Python里面使用Selenium是一个很重要的自动化测试模块,我们可以用它写一个验证登录脚本,有了这个可以用来保存cookie信息等,下面是一个简单的demo:

    2024年02月15日
    浏览(35)
  • Selenium+Python自动化测试之验证码处理

    验证码识别技术 (很难达到100%) 添加Cookie (*****五星推荐) 逻辑方式: 1:打开验证码所在页面,截图。获取验证码元素坐标,剪切出验证码图片,识别 以途牛为例 代码: 步骤: 1:获取指定cookie: get_cookie(cookie名) 2:获取本网站所有本地cookies: get_cookies() 3:添加cookie:ad

    2024年02月04日
    浏览(30)
  • Selenium解决滑块验证问题:自动化与技巧

    滑块验证是一种常见的人机验证机制,用于识别和防止自动化程序的访问。在爬虫和自动化测试中,我们经常面临需要处理滑块验证的情况。本文将介绍如何使用 Selenium 库处理滑块验证问题。 一、安装 Selenium 首先,确保你已经安装了 Selenium。你可以使用以下命令通过 pip 安

    2024年01月25日
    浏览(36)
  • Selenium 自动化测试如何优雅的解决图片验证码问题

    说到自动化测试那一定避不开登陆注册页面,而大多数情况下这两个简单的页面都存在一个小困难就是验证码,以前我的解决办法都是在测试环境粗暴的写死一个万能验证码,或者给程序一个10秒钟的线程阻塞,手动输入验证码以跳过这个步骤。这样就可以不那么优雅的实现

    2024年02月14日
    浏览(33)
  • 让测试人头疼的web自动化之验证码识别彻底解决方案

    对于web应用程序来讲,处于安全性考虑,在登录的时候,都会设置验证码,验证码的类型种类繁多,有图片中辨别数字字母的,有点击图片中指定的文字的,也有算术计算结果的,再复杂一点就是滑动验证的。诸如此类的验证码,对我们的系统增加了安全性的保障,但是对于

    2024年01月17日
    浏览(28)
  • 自动化测试之web自动化(Selenium)

     🔥 交流讨论: 欢迎加入我们一起学习! 🔥 资源分享 : 耗时200+小时精选的「软件测试」资料包 🔥  教程推荐: 火遍全网的《软件测试》教程   📢 欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! yycnblog 自动化测试概念:让程序代替人为去验证程序功能的过程,本

    2024年03月15日
    浏览(53)
  • selenium 自动化测试—如何搭建自动化测试环境?

    🍅 视频学习: 文末有免费的配套视频可观看 🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 最近也有很多人私下问我,selenium学习难吗,基础入门的学习内容很多是3以前的版本资料,对于有基础的人来说,3到4的差别虽然有,但是不足以影响自己,

    2024年02月19日
    浏览(46)
  • Selenium自动化测试实战之自动化测试基础

    自动化测试概念 是把以人为驱动的测试转化为机器执行的一种过程,它是一种以程序测试程序的过程。 自动化只是测试方式,跟测试阶段无关。 可以把任何测试工作写一个程序自动化实现都可以称为自动化测试。 selenium自动化测试: 2023最新的Selenium自动化测试实战,没有比

    2024年02月13日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包