Python使用pytesseract进行验证码图像识别

这篇具有很好参考价值的文章主要介绍了Python使用pytesseract进行验证码图像识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

图像读取主要用了两个库,不同的库是不同的对象:

本次图像识别测试需要以下两个条件:

1. 验证码获取

2. 登录网站

3. 图像处理

4. 验证码识别测试

测试说明

测试代码

测试结果

5. 成功示例的再识别测试

测试说明

测试代码

测试结果

测试注意事项

6. 集成融合投票模型,并使用多进程机制运行程序

测试说明

测试代码

测试结果

单进程运行程序的结果

并行运行程序时的效果及结果​

7. 失败示例的再识别

8. 其他

图像读取主要用了两个库,不同的库是不同的对象:

# plt.imread和PIL.Image.open读入的都是RGB顺序
from PIL import Image
img = Image.open('xxxx.png')  # 读取Image对象
img.save('xxx.png')
'''
print(img.mode)  # 有'1', 'L', 'P', 'RGB', 'RGBA'等
'1': 表示黑白模式照片
'L': 表示灰度模式照片
'RGB': 表示RGB通道模式的彩色照片
'RGBA': 表示RGB通道及Alpha通道的照片
'''
img.show() # 显示图片
img.convert('L')  # 转换为'L'模式
img.crop((20,30,300,200))  # 裁剪
# Image.eval(img, function)  # 对每个像素/通道进行函数处理


import cv2
# opencv中cv2.imread读入的是BGR通道顺序
# flags=0是灰度模式,flags=1是默认的彩色模式
# im = cv2.imread('xxxx.png', flags=0) # 读取图像array对象、
im = cv2.imread("imgCode_grey200.jpg", flags=cv2.IMREAD_GRAYSCALE)
cv2.imwrite('imgCode_grey200.jpg', im)
plt.imshow(im) # 显示图片
# plt.show()
# plt.close()
# cv2.imshow('im', im)  # 显示图片


## PIL.Image.open和cv2.imread的比较与相互转换的方法
# 当图片是png格式,读取结果是一致的;
# 当图片是jpg格式时,读取结果是不一致的。
# 这可能是因为Image.open 与 cv2.imread 在解码jpg时运算有差异。 

# 简单转换
# im = np.array(img, np.uint8)  # copy=True
# im = np.asarray(img, np.uint8)  # copy=False
 # 不设置dtype为数值的话,得到的可能是布尔值的数组,比如二值化后的图片
im = np.asarray(img) 
# img = Image.fromarray(np.uint8(im))
img = Image.fromarray(im)

# 标准转换
def PILImageToCV(imagePath):
    # PIL Image转换成OpenCV格式
    img = Image.open(imagePath)
    plt.imshow(img)
    img = cv2.cvtColor(np.asarray(img), cv2.COLOR_RGB2BGR)
    plt.imshow(img)
    plt.show()
 
def CVImageToPIL(imagePath):
    # OpenCV图片转换为PIL image
    img = cv2.imread(imagePath)
    plt.imshow(img)
    img2 = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
    plt.imshow(img2)
    plt.show()

本次图像识别测试需要以下两个条件:

OCR软件:tesseract.exe,通过命令行调用来识别字符。

OCR软件的Python接口:pytesseract,内核是OCR软件tesseract

OCR:Optical Character Recognition (光学字符识别)

备注:另外的一个接口PyOCR,内核可包括tesseract或其他,但也得提前安装OCR软件。

import pytesseract

def get_result_by_imgCode_recognition(img):
    # 进行验证码识别
    result = pytesseract.image_to_string(img)  # 接口默认返回的是字符串
    # ''.join(result.split())  # 去掉全部空格和\n\t等
    result = ''.join(list(filter(str.isalnum, result)))  # 只保留字母和数字
    return result
    

def pass_counter(img, img_value):
    # 辨别是否识别正确
    rst = get_result_by_imgCode_recognition(img)
    if rst == img_value:
        return 1
    else:
        return 0
        
        
def most_frequent(lst):
    # 获取列表最频繁的元素,可用于集成投票获得识别结果
    # return max(lst, key=lst.count)
    return max(set(lst), key=lst.count)

1. 验证码获取

通过浏览器的开发者工具,发现验证码图片为base64编码的文件,通过解码后写入文件。

Python使用pytesseract进行验证码图像识别

 Python使用pytesseract进行验证码图像识别

 Python使用pytesseract进行验证码图像识别

def fetch_imgCode():
    # 获取验证码
    url_imgCode = 'xxxx'
    html = requests.post(url_imgCode)
    '''
    print(f'imgCode rsp: {html.text}')
    imgCode rsp: {
        "data": 
            {"image_buf_str": "/9j/4AAQ....KAP/9k=",
             "image_code": "16501881494161"},
        "error_code": 0, "msg": {"en-us": "Success", "zh-CN": "\u6210\u529f"},
        "request": "POST /public/verificationCode/imgCode"}
    '''
    html = html.json()
    image_buf_str = html['data']['image_buf_str']
    image_code = html['data']['image_code']

    # 保存base64编码的图片为图片文件
    with open(f'./imgCode_png_raw/imgCode_{image_code}.png', 'wb') as f:
        f.write(base64.b64decode(image_buf_str))
    return image_code

2. 登录网站

通过向网站发起post请求,可登录网站,一般情况下:

输入image_code对应的正确的验证码的值image_value,即可登录成功。

反过来,如果登录成功,也意味着我们识别出来的验证码值image_value是正确。


HEADERS_PORTAL = {
    'User-Agent': 'xxxx',
    "Content-Type": "application/json",
}
def login(image_code, image_value):
    login_flag = False
    url_login = 'xxxx'
    data_login = {"account": "DEMO_Tong",
                  "password": "9xdsaGcy",
                  "image_code": image_code,
                  "captcha": image_value,
                  "nickname": "DEMO_Tong", "client_type": 100}
    html = requests.post(url_login, data=json.dumps(data_login), headers=HEADERS_PORTAL)
    # print(f'login info: {html.text}')
    html = html.json()
    if html.get('data'):
        if html.get('data').get('token'):
            login_flag = True
    return login_flag

3. 图像处理

灰度处理、二值处理、去噪、膨胀及腐蚀、倾斜矫正、字符切割、归一化等

# 灰度处理和二值处理
# lookup_table = [0 if i < 200 else 1 for i in range(256)]
def gray_processing(img, threshold = 127):
    # 转为灰度模式
    img = img.convert('L')
    # 转为二值模式,阈值默认是 127,大于为白色,否则黑色。
    # 为什么127呢,256/2=128, 2^8=256, 一个字节byte是8个比特bit
    # image.convert('1')  # 即 threshold = 127 
    # threshold = 125
    lookup_table = [0 if i < threshold else 1 for i in range(256)]
    img = img.point(lookup_table, '1')
    return img
    
 # 膨胀腐蚀法
 def erode_dilate(im, threshold=2):
    # im = cv2.imread('xxx.jpg', 0)
    # cv2.imshow('xxx.jpg', im)

    # (threshold, threshold) 腐蚀矩阵大小
    kernel = np.ones((threshold, threshold), np.uint8)
    # 膨胀
    erosion = cv2.erode(im, kernel, iterations=1)
    # cv2.imwrite('imgCode_erosion.jpg', erosion)
    # Image.open('imgCode_erosion.jpg').show()
    # # 腐蚀
    # eroded = cv2.dilate(erosion, kernel, iterations=1)
    # cv2.imwrite('imgCode_eroded.jpg', eroded)
    # Image.open('imgCode_eroded.jpg').show()
    return erosion

Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别Python使用pytesseract进行验证码图像识别

 

4.验证码识别测试

测试说明

根据不同的图像处理方式,进行验证码识别测试,积累成功识别示例的同时,观察不同处理方式的识别效果。测试中获取的验证码具有随机性,有容易识别的,也有不容易识别的,但客观上属于同一难度的验证码。

本次识别测试将分为3组,每次识别10000张,通过模拟登录网站来验证是否识别正确。

        第一组直接识别原图片文件,标签为“raw”

        第二组识别灰度处理和阈值为200的二值处理后的图片对象,标签为“gray”

        第三组识别经灰度、二值和膨胀处理后的图片对象,标签为“erosion”

识别的结果根据图像处理方式和识别正确与否,放在不同文件夹,识别结果也追加到文件名:

        imgCode_png_raw:存放从网站保存下来的原始图片

        imgCode_png_raw_pass:存放raw测试识别正确的原始图片

        imgCode_png_raw_fail:存放raw测试识别失败的原始图片

        imgCode_png_raw_gray_pass:存放gray测试识别正确的原始图片

        imgCode_png_raw_gray_fail:存放gray测试识别失败的已处理后的图片

        imgCode_png_raw_gray_erosion_pass:存放erosion测试识别正确的原始图片

        imgCode_png_raw_gray_erosion_fail:存放erosion测试识别失败的已处理后的图片

 Python使用pytesseract进行验证码图像识别Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别

 Python使用pytesseract进行验证码图像识别Python使用pytesseract进行验证码图像识别

 Python使用pytesseract进行验证码图像识别Python使用pytesseract进行验证码图像识别

 注意:通过浏览器的开发工具可以发现,验证码使用的字体应该是 element-icons.535877f5.woff

Python使用pytesseract进行验证码图像识别

测试代码

from tqdm import tqdm, trange 
from tqdm.contrib import tzip # tqdm是进度条模块,为了便于观察处理进度
TEST_TOTAL = 10000  # 测试数量1万张

def test_raw():
    print('raw: ')
    pass_count = 0
    # for _ in range(TEST_TOTAL):
    for _ in trange(TEST_TOTAL):
        try:
            image_code = fetch_imgCode()
            img = Image.open(f'./imgCode_png_raw/imgCode_{image_code}.png')

            result = get_result_by_imgCode_recognition(img)
            login_flag = login(image_code, result)
            if login_flag:
                img.save(f'./imgCode_png_raw_pass/imgCode_{image_code}_{result}.png')
                pass_count += 1
            else:
                img.save(f'./imgCode_png_raw_fail/imgCode_{image_code}_{result}.png')
        except:
            info = sys.exc_info()
            print(info)
    print(f'pass_rate: {pass_count/TEST_TOTAL*100}')

def test_gray():
    print('gray: ')
    pass_count = 0
    for _ in trange(TEST_TOTAL):
        try:
            image_code = fetch_imgCode()
            img = Image.open(f'./imgCode_png_raw/imgCode_{image_code}.png')
            img_gray = gray_processing(img, threshold=200)

            result = get_result_by_imgCode_recognition(img_gray)
            login_flag = login(image_code, result)
            if login_flag:
                img.save(f'./imgCode_png_raw_gray_pass/imgCode_{image_code}_{result}.png')
                pass_count += 1
            else:
                img_gray.save(f'./imgCode_png_raw_gray_fail/imgCode_{image_code}_{result}.png')
        except:
            info = sys.exc_info()
            print(info)
    print(f'pass_rate: {pass_count/TEST_TOTAL*100}')

def test_erosion():
    print('erosion: ')
    pass_count = 0
    for _ in trange(TEST_TOTAL):
        try:
            image_code = fetch_imgCode()
            img = Image.open(f'./imgCode_png_raw/imgCode_{image_code}.png')
            img_gray = gray_processing(img, threshold=200)
            
            im = np.asarray(img_gray, np.uint8)  # gray之后变成array,值变为0和1,有效去噪点
            erosion = erode_dilate(im, threshold=2)
            img1 = Image.fromarray(erosion*255)  # 值为0到1,整个图片都是黑色的。

            result = get_result_by_imgCode_recognition(img1) # 这里用array也可以
            login_flag = login(image_code, result)
            if login_flag:
                img.save(f'./imgCode_png_raw_gray_erosion_pass/imgCode_{image_code}_{result}.png')
                pass_count += 1
            else:
                img1.save(f'./imgCode_png_raw_gray_erosion_fail/imgCode_{image_code}_{result}.png')
        except:
            info = sys.exc_info()
            print(info)
    print(f'pass_rate: {pass_count/TEST_TOTAL*100}')

测试结果

Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别 

5. 成功示例的再识别测试

测试说明

将通过raw、gray、erosion识别测试正确的示例按照1:1:1的样本比例拷贝到imgCode_pass文件夹,此时的验证码样本都是有正确识别结果的,且数量一定和样本比例均衡,可以用三种处理方式进行再识别,比较三种处理方式的识别效果。

此次再识别测试的样本比例1:1:1,各8844张,共26532张。

测试代码


def test_pass_raw():
    pass_list = os.listdir('./imgCode_pass')
    pass_value_list = [img_file[-8:-4] for img_file in pass_list]
    pass_cnt1 = 0
    pass_amt = len(pass_list)
    print(f'pass_amt: {pass_amt}')

    # for img_file, img_value in zip(pass_list, pass_value_list):
    for img_file, img_value in tzip(pass_list, pass_value_list):
        # raw
        img = Image.open(f'./imgCode_pass/{img_file}')
        pass_cnt1 += pass_counter(img, img_value)
    print(f'raw: \npass_rate:{pass_cnt1 / pass_amt * 100}')

def test_pass_gray():
    pass_list = os.listdir('./imgCode_pass')
    pass_value_list = [img_file[-8:-4] for img_file in pass_list]
    pass_cnt2 = 0
    pass_amt = len(pass_list)
    print(f'pass_amt: {pass_amt}')

    # for img_file, img_value in zip(pass_list, pass_value_list):
    for img_file, img_value in tzip(pass_list, pass_value_list):
        # raw
        img = Image.open(f'./imgCode_pass/{img_file}')
        # raw + grey200
        img = gray_processing(img, threshold=200)
        pass_cnt2 += pass_counter(img, img_value)
    print(f'raw + grey200: \npass_rate:{pass_cnt2/pass_amt*100}')

def test_pass_erosion():
    pass_list = os.listdir('./imgCode_pass')
    pass_value_list = [img_file[-8:-4] for img_file in pass_list]
    pass_cnt3 = 0
    pass_amt = len(pass_list)
    print(f'pass_amt: {pass_amt}')

    # for img_file, img_value in zip(pass_list, pass_value_list):
    for img_file, img_value in tzip(pass_list, pass_value_list):
        # raw
        img = Image.open(f'./imgCode_pass/{img_file}')
        # raw + grey200
        img = gray_processing(img, threshold=200)
        # raw + grey200 + erosion
        im = np.asarray(img, np.uint8)  # gray之后变成array,值变为0和1,有效去噪点
        erosion = erode_dilate(im, threshold=2)
        img1 = Image.fromarray(erosion*255)  # 值为0到1,整个图片都是黑色的。
        pass_cnt3 += pass_counter(img1, img_value)
    print(f'raw + grey200 + erosion(Image): \npass_rate:{pass_cnt3/pass_amt*100}')

测试结果

Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别 

测试注意事项

此次测试特别需要注意样本比例,如果样本全为通过raw识别测试正确的来进行再识别,使用raw方式将为100%识别正确。下图是使用大部分为raw识别成功的示例来进行再识别的结果,发现不同处理方式的识别模型的识别能力呈下降趋势,越接近raw识别模型的模型精度越好,反正越差。

Python使用pytesseract进行验证码图像识别

6. 集成融合投票模型,并使用多进程机制运行程序

测试说明

基于不同的模型的识别效果不一,考虑集成学习的模型融合,使用投票法,通过raw、gray、erosion三种模型进行识别预测投票,将票数多的识别结果作为集成融合投票模型的识别结果,来进行登录验证。

基于集成融合投票模型需要对同一张验证码示例进行3次识别,比较耗时,故使用多进程机制并行地运行程序,减少程序所消耗的时间。

测试代码

def test_ensemble_vote(kwargs):
    result_list = []
    image_code = fetch_imgCode()
    img = Image.open(f'./imgCode_png_raw/imgCode_{image_code}.png')
    result_list.append(get_result_by_imgCode_recognition(img))

    img_gray = gray_processing(img, threshold=200)
    result_list.append(get_result_by_imgCode_recognition(img_gray))

    im = np.asarray(img_gray, np.uint8)  # gray之后变成array,值变为0和1,有效去噪点
    erosion = erode_dilate(im, threshold=2)
    img1 = Image.fromarray(erosion*255)  # 值为0到1,整个图片都是黑色的。
    result_list.append(get_result_by_imgCode_recognition(img1))

    result = max(result_list, key=result_list.count)
    login_flag = login(image_code, result)
    return login_flag

def test_ensemble_vote_multi():
    print('test_ensemble_vote_multi: ')
    from multiprocessing import Pool

    pool = Pool()
    pool_result_list = pool.map(test_ensemble_vote, trange(TEST_TOTAL))
    pool.close()
    pool.terminate()
    pool.join()

    pass_count = pool_result_list.count(True)
    print(f'pass_rate: {pass_count/TEST_TOTAL*100}')

测试结果

单进程运行程序的结果

 并行运行程序时的效果及结果

7. 失败示例的再识别

使用不同二值化阈值识别的融合投票模型对元模型(raw、gray或erosion)识别失败的例子进行再识别。 


def test_fail():
    ## 单独一张图片,不同的二值化阈值,最频繁预测结果
    # img = Image.open(f'./imgCode_fail/imgCode_16501101286728_359.png')
    # img.show()
    # result_list = []
    # for i in trange(120,200,1):
    #     img_gray = gray_processing(img, threshold=i)
    #     img_gray.show()
    #     result = get_result_by_imgCode_recognition(img_gray)
    #     result_list.append(result)
    # print(f'most_frequent(lst): {most_frequent(result_list)}')

    ## 多张图片,不同灰度阈值,最频繁预测结果,目的是寻找最佳阈值
    fail_list = os.listdir('./imgCode_fail')
    result_list_1 = []
    for img_file in fail_list:
        img = Image.open(f'./imgCode_fail/{img_file}')
        result_list_2 = []
        for i in trange(120,200,10):
            img_gray = gray_processing(img, threshold=i)
            result = get_result_by_imgCode_recognition(img_gray)
            result_list_2.append(result)
        result_list_1.append(result_list_2)
    for img_file, lst in zip(fail_list, result_list_1):
        print(f'{img_file}, most_frequent(lst): {most_frequent(lst)}')

8.其他

Python使用pytesseract进行验证码图像识别

 Python使用pytesseract进行验证码图像识别

 Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别 

Python使用pytesseract进行验证码图像识别 

 Python使用pytesseract进行验证码图像识别

Python使用pytesseract进行验证码图像识别 文章来源地址https://www.toymoban.com/news/detail-445853.html

到了这里,关于Python使用pytesseract进行验证码图像识别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 通过Python的pytesseract库识别图片中的文字

    大家好,我是空空star,本篇给大家分享一下通过Python的pytesseract库识别图片中的文字。 本篇所用软件相关版本: macOS 11.6.5 Python 3.8.9 pytesseract 0.3.10 Pillow 9.4.0 Pytesseract是一个Python的OCR库,它可以识别图片中的文本并将其转换成文本形式。Pytesseract基于Google的Tesseract OCR引擎,具

    2024年02月03日
    浏览(40)
  • 微博模拟登陆的方法 + 图灵图像图片验证码识别平台 识别验证码(97%正确率)Python + Selenium+Chrome

    最近遇到一个问题,需要频繁切换账号登陆微博,但是需要识别微博的验证码,比较麻烦。而且因为需要24h不间断的操作,所以没法使用人工打码平台,而且打码平台也比较贵,延迟又高。最后找到了一个可以机器识别出来的,延迟只有0.1s,而且准确率超级高。 首先看一下

    2024年02月04日
    浏览(73)
  • 深度学习与图像识别:如何使用深度学习进行图像识别

    深度学习与图像识别:如何使用深度学习进行图像识别 深度学习是一种基于多层神经网络的机器学习方法,能够从大量的数据中自动提取特征和规律,从而实现复杂的任务,如图像识别。图像识别是指让计算机能够理解和分析图像中的内容,如物体、人脸、场景等。使用深度

    2024年02月05日
    浏览(41)
  • 谈谈如何使用 opencv 进行图像识别

    原文由hakaboom发表于TesterHome社区,点击原文链接可与作者直接交流。 从18年开始,我接触了叉叉助手(平台已经被请喝茶了),通过图色识别,用来给常玩的游戏写挂机脚本,写了也有两三年.也算是我转行当游戏测试的理由. 去年11月,也是用了这身技术,混进了外包,薪资还不错,属于是

    2024年02月10日
    浏览(62)
  • python+paddleocr 进行图像识别、找到文字在屏幕中的位置

    目录 前言 1、安装paddleocr 2、安装PIL 3、安装numpy 4、 安装pyautogui 5、进行文本识别 6、识别结果 7、获取文字在图片/屏幕中的位置 8、pyautogui+paddleocr鼠标操作 9、完整代码 最近在做自动化测试,因为是处理过的界面,所以使用pywinauto,LDTP获取控件进行操作的方法不可行,于是选

    2024年02月03日
    浏览(46)
  • 使用python库解决登录的验证码识别-图片验证码

    前言: 在UI自动化测试和爬虫测试中,验证码是个比较头疼的问题,包括:图片验证码,滑块验证码,等一些常见的验证码场景。 识别验证码的python 库有很多,用起来也并不简单,这里推荐一个简单实用的识别验证码的库 ddddocr (带带弟弟ocr)库。 今天先用一个图片验证码示

    2023年04月11日
    浏览(39)
  • Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单人脸检测/识别实战案例 之六 简单进行人脸训练与识别

    目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单人脸检测/识别实战案例 之六 简单进行人脸训练与识别 一、简单介绍 二、简单进行人脸训练与识别 1、LBPH(Local Binary Patterns Histograms)算法进行人脸训练和识别 2、实现步骤: 3、判断是谁的人脸: 案例中涉及的关键函数说

    2024年04月26日
    浏览(86)
  • Go语言使用gosseract 库来进行图像文字识别,识别出来的中文是乱码的?如何解决?

    如果您在使用 gosseract 库进行图像文字识别时,得到的中文文字是乱码,可能是因为默认情况下 gosseract 以及 Tesseract 引擎并不支持中文字符的识别。要解决这个问题,您需要进行一些配置和设置。 以下是解决方案的步骤: 1 安装 Tesseract 和 Language Data :确保您已经安装了 Te

    2024年02月02日
    浏览(51)
  • 图像识别之验证码识别

    自动化测试中,例如使用selenium测试web页面,在定位元素、识别元素、确认元素内容时会遇到,目标元素不可被获取、目标元素是图片无法获取到文本、目标元素动态变化无法定义预期值等,遇到以上种种便阻碍了测试脚本的进行,所以选择图像识别来实现以上无法完成的动

    2024年02月03日
    浏览(36)
  • OpenCV for Unity使用深度学习神经网络进行图像识别对象检测

    本文使用的是OpenCV for Unity 2.4.5 1.打开AssetsOpenCVForUnityStreamingAssetsdnnsetup_dnn_module.pdf 2.按照提示下载person.jpg、yolov4-tiny.cfg、yolov4-tiny.weights、coco.names  3.打开场景AssetsOpenCVForUnityExamplesMainModulesdnnYoloObjectDetectionExampleYoloObjectDetectionWebCamTextureExample.unity 4. 配置Dnn参数  5.运行

    2024年02月12日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包