[Python自动化]selenium之验证码识别

这篇具有很好参考价值的文章主要介绍了[Python自动化]selenium之验证码识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这一专栏,将以目的为导向,以简化或自动化完成工作任务为目标,将Python运用于实践中,解决实际问题,以激发读者对这门脚本语言的学习兴趣。在开始Python自动化相关实战的学习前,建议对 Python语言本身 以及 Python 爬虫 的相关知识展开一定的学习与了解。对此博客已开设相关专栏,可直达。


往期内容提要:

  • 【Python基础】 动态HTML处理之Selenium与PhantomJS
  • 【Python基础】 机器视觉与机器图像识别之Tesseract
  • 【Python自动化】 selenium之网课学习自动化
  • 【Python自动化】 selenium之验证码识别(本文)
  • 【Python实战】疫情期间每日健康报送任务的自动化处理
  • 【Python实战】教务管理系统:成绩、课表查询接口设计及抢课、监控功能实现

“验证码的识别”无论是在网络爬虫,还是自动化领域,都是无法绕开的话题。此前作者曾在 [Python爬虫] 九、机器视觉与机器图像识别之Tesseract 一文中,对验证码的识别进行过初步介绍。在 教务管理系统:成绩、课表查询接口设计及抢课、监控功能实现 一文中,对图形验证码的识别进行了实战展示。在这一篇文章中,将对验证码的识别作出一个相对系统的概括与总结。

一般而言,在自动化工作中,如遇到验证码问题,我们一般通过三个方式解决。其一,手动解决;其二, 打码平台解决;三,代码解决。

针对第一种方法,如在入门篇【Python自动化】 selenium之网课学习自动化 一文中,在登录环节,为节省学习成本,我们便是采用的手动输入的方式处理验证码,通过图像识别。

[Python自动化]selenium之验证码识别

def Login():
        print('***************正在加载必要元素,请耐心等待***************')
        browser.get('https://www.******.cn/home/')
        browser.find_element_by_xpath('//*[@id="accountFrom"]/label[1]/input').send_keys(username)
        browser.find_element_by_xpath('//*[@id="accountFrom"]/label[3]/input').send_keys(pwd)
        input("请输入验证码登陆后回车确认:")

针对第二种方法,正所谓利用“钞能力”解决问题,仅需足够预算,简单高效。在这里便不再多述。本文将主要讲述如何通过代码,实现验证码的识别。鉴于当前验证码形式的多样性,这里选用字符识别和滑动拼图两种最常见的验证方式,展开介绍。


验证码识别基本步骤梳理:
  1. 定位识别元素
  2. 获取识别(完整)图片
  3. 编写识别方法
  4. 通过识别验证

一、字符验证码识别

[Python自动化]selenium之验证码识别

  1. 获取并保存验证码:

这一步的基本逻辑是:访问网页,保存验证码。但值得注意的是,每次页面刷新后验证码的值也将改变,因此请求验证码时候的cookie值应当与访问网页时的cookie值保持一致。

(1)访问网页
url1 = '手动打码/Login.aspx'
def get_cookie():
        headers1 = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
            "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
            "Accept-Encoding": "gzip, deflate",
            "Content-Type": "application/x-www-form-urlencoded",
            "Origin": "手动打码",
            "Connection": "keep-alive",
            "Referer": "手动打码",
            "Upgrade-Insecure-Requests": "1"
        }
        main = session.get(url1, headers=headers1)
        gb_headers = main.headers
        return gb_headers
(2)储存验证码
test = get_cookie()
url2 = '手动打码/Image.aspx'
def get_pic():
    # 验证码请求头
    headers2 = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
        "cookie": "varPartNewsManage.aspx=10" + test["Set-Cookie"]
    }

    re_pic = requests.get(url2, headers=headers2)
    response = re_pic.content

    file = "C:\\Users\\john\\Desktop\\1\\" + ".png"
    playFile = open(file, 'wb')
    playFile.write(response)
    playFile.close()
  1. 识别验证码:
def recognize_captcha(img_path):
    im = Image.open(img_path)
    num = pytesseract.image_to_string(im)
    return num

get_pic()
pic_res = recognize_captcha("C:\\Users\\john\\Desktop\\1\\" + ".png")
#print(pic_res)  # 验证码识别结果
  1. 登陆
def post_login():
    headers3 = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
        "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
        "Accept-Encoding": "gzip, deflate",
        "Content-Type": "application/x-www-form-urlencoded",
        "Origin": "手动打码",
        "Connection": "keep-alive",
        "Referer": "手动打码",
        "Upgrade-Insecure-Requests": "1",
        "cookie": "varPartNewsManage.aspx=10;" + test["Set-Cookie"]
    }
    data = { "Flag": "Login",
            "username": "手动打码",
            "password": "手动打码",
            "ddlUserClass": "1",
            "code1": pic_res,
            "ImageButton2.x": "64",
            "ImageButton2.y": "10"}
    res = session.post(url=url,data=data,headers=headers3)
    #print(res.request.headers)  #核验cookie是否有效带上
    #print(res.text)

post_login()

二、滑动拼图验证码识别

[Python自动化]selenium之验证码识别

  1. 获取验证按钮与验证码的位置
def get_geetest_button(self):
    """
    获取初始验证按钮
    :return:
    """
    # 验证按钮
    button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME,'geetest_radar_tip')))
    return button

def get_position(self):
    """
    获取验证码位置
    :return: 验证码位置元组
    """
    img = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_img')))
    print('img')
    location = img.location
    size = img.size
    top, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size['width']

进入验证页面,获取验证按钮与验证码的位置

  1. 获取完整图片
    [Python自动化]selenium之验证码识别
    [Python自动化]selenium之验证码识别
def get_screenshot(self):
    """
    获取网页截图
    :return: 截图对象
    """
    screenshot = self.browser.get_screenshot_as_png()
    screenshot = Image.open(BytesIO(screenshot))
    return screenshot
def get_geetest_image(self, name='captcha.png'):
    """
    获取验证码图片
    :return: 图片对象
    """
    top, bottom, left, right = self.get_position()
    print('验证码位置', top, bottom, left, right)
    screenshot = self.get_screenshot()
    captcha = screenshot.crop((left, top, right, bottom))
    captcha.save(name)
    return captcha
def delete_style(self):
    '''
    执行js脚本,获取无滑块图
    :return None
    '''
    js = 'document.querySelectorAll("canvas")[2].style=""'
    self.browser.execute_script(js)
def get_gap(self, image1, image2):
    """
    获取缺口偏移量
    :param image1: 带缺口图片
    :param image2: 不带缺口图片
    :return:
    """
    left = 60
    print(image1.size[0])
    print(image1.size[1])
    for i in range(left, image1.size[0]):
        for j in range(image1.size[1]):
            if not self.is_pixel_equal(image1, image2, i, j):
                left = i
                return left
    return left

def is_pixel_equal(self, image1, image2, x, y):
    """
    判断两个像素是否相同
    :param image1: 图片1
    :param image2: 图片2
    :param x: 位置x
    :param y: 位置y
    :return: 像素是否相同
    """
    # 取两个图片的像素点
    pixel1 = image1.load()[x, y]
    pixel2 = image2.load()[x, y]
    threshold = 60
    if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(
            pixel1[2] - pixel2[2]) < threshold:
        return True
    else:
        return False

通过调整css样式,获取完整图片。同时获取带缺口的图片加入带缺口图片进行对比,获取偏移量!(PIL)

  1. 验证

根据偏移量获取移动轨迹,控制滑块,填补缺口!

def get_track(self, distance):
    """
    根据偏移量获取移动轨迹
    :param distance: 偏移量
    :return: 移动轨迹
    """
    # 移动轨迹
    track = []
    # 当前位移
    current = 0
    # 减速阈值
    mid = distance * 4 / 5
    # 计算间隔
    t = 0.2
    # 初速度
    v = 0
    while current < distance:
        if current < mid:
            # 加速度为正2
            a = 2
        else:
            # 加速度为负3
            a = -1
        # 初速度v0
        v0 = v
        # 当前速度v = v0 + at
        v = v0 + a * t
        # 移动距离x = v0t + 1/2 * a * t^2
        move = v0 * t + 1 / 2 * a * t * t
        # 当前位移
        current += move
        # 加入轨迹
        track.append(round(move))
    return track

def move_to_gap(self, slider, track):
    """
    拖动滑块到缺口处
    :param slider: 滑块
    :param track: 轨迹
    :return:
    """
    ActionChains(self.browser).click_and_hold(slider).perform()
    for x in track:
        ActionChains(self.browser).move_by_offset(xoffset=x, yoffset=0).perform()
    time.sleep(0.5)
    ActionChains(self.browser).release().perform()

这里值得注意的是,由于验证码的特殊性,我们是不能控制滑块匀速滑过去的(人类是做不到的),极验在此也是做了验证的!所以我们按照人操作,先加速后减速做个优化!

此外,不管是电脑设置还是浏览器设置的缩放都要改成100%。否则将会影响图片的截取与偏移量的错误计算。


至此,本文也就进入尾声了。本文的撰写来自于开发中的一点心得体会,主要目的在于通过实践提高读者Python学习兴趣,解决实际问题。供对这一领域感兴趣的读者以参考借鉴。希望本文能够起到抛砖引玉之效,也欢迎大家的批评交流。


如果您有任何疑问或者好的建议,期待你的留言、评论与关注!文章来源地址https://www.toymoban.com/news/detail-400393.html

到了这里,关于[Python自动化]selenium之验证码识别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • selenium3自动化测试(这一篇就够了)——自学篇

      📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢交流讨论:欢迎加入我们一起学习! 📢资源分享:耗时200+小时精选的「软件测试」资料包 📢 软件测试学习教程推荐:火遍全网的《软件测试》教程 ​​ 安装python 打开 Python官网,

    2024年02月02日
    浏览(38)
  • 爬虫-selenium自动化(3)-验证码

    #验证码分很多种,奇葩也无处不在:哪个是真茅台,红绿灯,摩托车......(我是个人都看不出来) (๑ó﹏ò๑) #本节内容为selenium自动化实现验证码通过-------字符验证码,点触验证码。            

    2024年01月21日
    浏览(45)
  • 自动化测试识别验证码方法

    在进行自动化测试,我发现很多人卡在验证码无法是识别的路上,往往都是需要开发提供万能码或者取消验证码,但是有的时候需要真实场景模拟,验证码的获取就比较困难,今天分享一个自己亲测的UI自动化测试登陆时验证码输入的有效简单的解决方法。 首先我采用的是

    2024年02月13日
    浏览(40)
  • Selenium解决滑块验证问题:自动化与技巧

    滑块验证是一种常见的人机验证机制,用于识别和防止自动化程序的访问。在爬虫和自动化测试中,我们经常面临需要处理滑块验证的情况。本文将介绍如何使用 Selenium 库处理滑块验证问题。 一、安装 Selenium 首先,确保你已经安装了 Selenium。你可以使用以下命令通过 pip 安

    2024年01月25日
    浏览(50)
  • Selenium 自动化测试如何优雅的解决图片验证码问题

    说到自动化测试那一定避不开登陆注册页面,而大多数情况下这两个简单的页面都存在一个小困难就是验证码,以前我的解决办法都是在测试环境粗暴的写死一个万能验证码,或者给程序一个10秒钟的线程阻塞,手动输入验证码以跳过这个步骤。这样就可以不那么优雅的实现

    2024年02月14日
    浏览(43)
  • Python办公自动化之Word文档自动化:全网最全,看这一篇就够了

    目录 一、环境安装 1、升级pip 2、python-docx 3、win32com 4、mailmerge 5、matplotlib 二、Python-docx 新建文档 三、Python-docx 编辑已存在文档 四、win32com 将 doc 转为 docx 五、win32com 操作 word 1、打开新的word文档并添加内容 2、打开已存在word文档并添加内容 3、转换word为pdf 六、Python-docx 操作

    2024年02月01日
    浏览(59)
  • 让测试人头疼的web自动化之验证码识别彻底解决方案

    对于web应用程序来讲,处于安全性考虑,在登录的时候,都会设置验证码,验证码的类型种类繁多,有图片中辨别数字字母的,有点击图片中指定的文字的,也有算术计算结果的,再复杂一点就是滑动验证的。诸如此类的验证码,对我们的系统增加了安全性的保障,但是对于

    2024年01月17日
    浏览(35)
  • Python自动化测试怎么去学习?熬夜7天整理出这一份3000字学习指南!

    Python用于简单脚本编程,如编写2048小游戏或12306的自动抢票软件; Python用于系统编程,如开发系统应用; Python用于开发网络爬虫; 网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。网络爬虫的难点其实并不在于爬虫本身,由于网站方为了避免被爬取回采

    2024年01月22日
    浏览(30)
  • Python Selenium UI自动化测试_python 自动化ui测试

    2.2 安装selenium pip install selenium pip install selenium==2.53.0 2.3 下载webdriver驱动 以chrome浏览器为例 查看chrome浏览器版本:在地址栏输入 chrome://version chromedriver下载地址:http://chromedriver.storage.googleapis.com/index.html 下载与浏览器版本对应的chrome driver 将下载好的chrome driver 解压,并放至到

    2024年04月14日
    浏览(71)
  • 【自动化测试】基于Selenium + Python的web自动化框架

    Selenium是一个基于浏览器的自动化工具,她提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分:Selenium IDE、Selenium WebDriver 和Selenium Grid:  1、Selenium IDE:Firefox的一个扩展,它可以进行录制回放,并可以把录制的操作以多种语言(例如java,p

    2024年02月07日
    浏览(74)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包