【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码

这篇具有很好参考价值的文章主要介绍了【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

深度使用tesseract-OCR技术识别图形验证码

前言：本片文章是基于我之前发的一篇文章《【爬虫】8.1. 使用OCR技术识别图形验证码》而写的，链接为：
【爬虫】8.1. 使用OCR技术识别图形验证码，前面这篇文章比较基础。入门了tesseract-OCR技术之后对它比较感兴趣，故继续深度学习以下。为了衔接比较好，故本篇文章前面讲到的会和前面一篇文章有一些重复。

突然发现一个问题，csdn的图片有水印…不管了，凑合看吧，但是代码运行就要自己找图片了

1. OCR技术

OCR，即Optical Character Recognition，中文叫做光学字符识别，是指使用电子设备（例如扫描仪和数码相机）检查打印再纸上的字符，通过检查暗、亮的模式确定字符形状，然后使用字符识别方法将形状转化位计算机文字。现在OCR技术已经广泛应用于生产活动中，如文档识别，证件识别，字幕识别，文档搜索等。当然用来识别本节所述的图形验证码也没有问题。

2. 准备工作

我用的库是pytesseract，有的人用的是tesserocr，其实两者感觉差别不大：

打开tesseract下载的网页 tesseract，下载最后一个（应该是）tesseract-ocr-w64-setup-v5.3.0.2.221214这个版本，接着就是安装，安装过程中自己记好自己安装在哪里！！！然后就是选择语言包，建议不要全选会下载很慢。
将你记下来的安装路径的整个文件地址给添加到环境变量中去。
接着python安装pytesseract，找到pytesseract.py文件，打开并找到tesseract_cmd这个变量（大约在30行左右）将里面的值修改为tesseract.exe文件的地址（这个文件在你一开始记下的文件地址里面，查找文件夹就找到了，不用进其他的文件夹，注意转义字符）。
搞定上述之后在cmd窗口运行tesseract --list-langs可以看到你下载的语言包。
重启，然后运行你的示例代码就行了，如果还不可以，那你去看其他下载教程。

以下是一篇在Ubuntu18.04安装Tesseract库的博客，需要的请跳转：
开源OCR识别库-tesseract介绍-平凡的编程者-博客园（cnblogs.com)

3. 简单作用了解

先简单了解下有啥用吧。

3.1. 验证码图片爬取-screenshot_as_png

这个网页使用JavaScript渲染出来的，我们进行爬取的时候使用selenium自动化测试工具。

from selenium import webdriver
from selenium.webdriver.common.by import By
from PIL import Image
from io import BytesIO
import time

def demo():
    browser = webdriver.Chrome()
    browser.get("https://captcha7.scrape.center")
    time.sleep(3)
    captcha = browser.find_element(By.CSS_SELECTOR,"#captcha")
    image = Image.open(BytesIO(captcha.screenshot_as_png))
    image.show()

if __name__ == "__main__":
    demo()

这里使用了我很少见的BytesIO，这是一个类，它的功能是读取二进制数据流，而图片就是二进制数据流；还有就是captcha.screenshot_as_png这部分的功能就是将当前页面的内容捕获为一张图像，以bytes二进制数据保存；最后调用image的show方法来显式验证码的图像。

3.2. 识别测试-image_to_string

本小节的验证码案例网站为https://captcha7.scrape.center，使用的是image_to_string，当然还有其他的，等会再说。

3.2.1. 正确识别

首先我们选用两张图片来进行测试，第一张是有换行和明显空格，第二张是一张验证码。

【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码,Python3WebSpider,爬虫,ocr,python

我们运行下面代码：

import pytesseract
from PIL import Image
image1 = Image.open("tesseract_tt1.png")
result1 = pytesseract.image_to_string(image1)
image2 = Image.open("tesseract_tt2.png")
result2 = pytesseract.image_to_string(image2)
print(result1, end= '')
print("=========")
print(result2, end= '')

Demons
Lin
Ss ZzTU
=========
2034

我们可以看到在输出SZTU这部分时候出现了SsZz这样大小写都输出的情况，这是因为pytesseract库在识别大小写字母时候很难准确识别出大小写，你可以采取其他办法来执行，这里就不列出来。

3.2.2. 错误识别

我选取到了一张图片，如下所示：
【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码,Python3WebSpider,爬虫,ocr,python

import pytesseract
from PIL import Image
image = Image.open("error.png")
result = pytesseract.image_to_string(image)
print(result, end= '')

04-8 d.

可以看到这个输出结果明显不是我们想要的，这是因为OCR识别技术是通过检查暗、亮的模式确定字符形状，不是我们想当然的用脑子来看。所以，我们需要做一些额外处理，把干扰信息去掉，我们观察发现，图片里哪些造成干扰的点，其颜色大多比文本的颜色更浅，因此可以通过颜色将干扰点去掉。首先将保存的图片转化为数组，看一下维度：

from PIL import Image
import numpy as np
image = Image.open("error.png")
print(np.array(image).shape)
print(image.mode)

(38, 112, 4)
RGBA

从结果上可以看出，这个图片其实是一个三维数组，38和112代表图片的高和宽，4则是每个像素点的表示向量，那为什么是4呢？因为最后一维是一个长度为4的数组分别表示R（红）G（绿）B（蓝）A（透明度），即一个像素点由4个数字表示。那为什么是RGBA而不是RGB或者其他的呢？因为image.mode是RGBA，即由透明通道的真彩色。

mode属性定义了图片的类型和像素的位宽，一共由9种类型：

1：像素用1位表示，Python中表示为True或False，即二值化。
L：像素用8位表示，取值位0-255，表示灰度图像，数字越小，颜色越黑。
P：像素用8位表示，即调色板数据。
RGB：像素用3X8位表示，即真彩色。
RGBA：像素用4X8位标识，即有透明通道的真彩色。
CMYK：像素用4X8位表示，即印刷四色模式。
YCbCr：像素用3X8位表示，即彩色视频格式。
I：像素用32位整型表示。
F：像素用32位浮点型表示。

3.2.3. 灰度调节

让识别更加准确，可以把RGBA转化位更简单的L，即把图片转化位灰度图像。往图片对象的convert方法中传入L即可，代码如下表示：

image = image.convert('L')
image.show()

我们选择把图片转化位灰度图像，然后根据阈值删除图片上的干扰点，成功识别出验证码，也可以调用image的show方法来查看图像，代码如下：

from PIL import Image
import numpy as np

image = Image.open("error.png")
image = image.convert('L')
threshold = 90
array = np.array(image)
array = np.where(array> threshold, 255, 0)
image = Image.fromarray((array.astype('uint8')))
# image.show()
result = pytesseract.image_to_string(image)
print(result)

这里先将变量threshold赋值位50.它代表灰度的阈值。接着将图片转化位Numpy数组，利用Numpy的where方法对数组进行筛选和处理，其中将灰度大于阈值的图片的像素设置为255表示白色，否则为0，表示黑色。Image.fromarray((array.astype(‘uint8’))) 是使用PIL（Python Imaging Library）库将numpy数组转换为图像。

3.3. 识别实战-使用image_to_string对象

看懂就行了，识别可能不太准确。

import time
import re
import pytesseract
from selenium import webdriver
from io import BytesIO
from PIL import Image
from retrying import retry
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
import numpy as np


def preprocess(image):
    image = image.convert('L')
    array = np.array(image)
    array = np.where(array > 105, 255, 0)
    image = Image.fromarray(array.astype('uint8'))
    return image


@retry(stop_max_attempt_number=10, retry_on_result=lambda x: x is False)
def login():
    browser.get('https://captcha7.scrape.center/')
    browser.find_element(By.CSS_SELECTOR, '.username input[type="text"]').send_keys('admin')
    browser.find_element(By.CSS_SELECTOR, '.password input[type="password"]').send_keys('admin')
    captcha = browser.find_element(By.CSS_SELECTOR,'#captcha')
    image = Image.open(BytesIO(captcha.screenshot_as_png))
    image = preprocess(image)
    image.show()
    captcha = pytesseract.image_to_string(image)
    print(captcha)
    captcha = re.sub('[^A-Za-z0-9]', '', captcha)
    browser.find_element(By.CSS_SELECTOR, '.captcha input[type="text"]').send_keys(captcha)
    browser.find_element(By.CSS_SELECTOR, '.login').click()
    try:
        WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, '//h2[contains(., "登录成功")]')))
        time.sleep(5)
        browser.close()
        return True
    except TimeoutException:
        return False


if __name__ == '__main__':
    browser = webdriver.Chrome()
    login()

4. pytesseract库介绍

pytesseract提供了以下14个识别的api，可以满足大多数用户的需求，基本用到的有image_to_string,image_to_boxes,image_to_data，下面是它的14个api：

from pytesseract import ALTONotSupported  # 用于表示ALTO XML格式不受支持的错误
from pytesseract import get_languages  # 输出识别出文字的语言
from pytesseract import get_tesseract_version  # 获取安装的Tesseract OCR引擎的版本信息
from pytesseract import image_to_alto_xml  # 将图像识别结果输出为ALTO XML格式的文档，该格式通常用于文档数字化和文本识别
from pytesseract import image_to_boxes  # 将图像中的文字识别为边界框（box），并返回它们的坐标信息
from pytesseract import image_to_data  # 将图像中的文字识别并返回详细的数据，包括文本、坐标、置信度等信息
from pytesseract import image_to_osd  # 识别图像中的文字方向和脚本信息，以确定文本的定位和方向
from pytesseract import image_to_pdf_or_hocr  # 将图像中的文字识别并将结果输出为PDF或HOCR（HTML OCR）格式的文档
from pytesseract import image_to_string  # 将图像中的文字识别为字符串，并返回识别的文本内容
from pytesseract import Output  # 这是一个常量，用于指定返回识别结果的格式，例如文本、字典、数据等
from pytesseract import run_and_get_output  # 执行Tesseract OCR引擎并获取其输出，可以用于高级定制和控制
from pytesseract import TesseractError  # 用于表示Tesseract OCR引擎的错误
from pytesseract import TesseractNotFoundError  # 用于表示未找到Tesseract OCR引擎的错误
from pytesseract import TSVNotSupported  # 用于表示TSV（制表符分隔值）格式不受支持的错误

__version__ = '0.3.10'

以下内容使用的图片均为上面使用过的！！！！！！

5. image_to_string

从名字上来看是将图片转化为字符串格式，先来看看它的用法，再来说说它的其他参数：

import pytesseract
from PIL import Image
image1 = Image.open("tesseract_tt1.png")
result1 = pytesseract.image_to_string(image1)
print(result1, end= '')

以下是它的其他常见的可选参数：

lang：指定要用于识别的语言，默认为英语。
config：允许你传递tesseract配置参数，以微调识别过程，这可以包括有关字体、分辨率以及其他识别参数的设置，配置参数通常以键值对的形式传递。
- –dpi：设置图像的分辨率（每英寸点数）。这可以用于提高对低分辨率图像的识别效果。
- –c tessedit_char_whitelist：允许您指定要识别的字符白名单。例如，–c tessedit_char_whitelist=0123456789可以限制识别的字符集为数字。

以下是使用cv2和pytesseract

import cv2 
import pytesseract
img = cv2.imread('tesseract_tt1.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
string = pytesseract.image_to_string(img)
print(string)
print (type(string))

6. image_to_boxes

image_to_boxes 是 pytesseract 库中的一个函数，用于将图像中的文字识别为边界框（box），并返回它们的坐标信息。每个边界框包含了单个字符的位置和大小。这对于进行文本布局分析和文本识别后的后续处理非常有用。

函数签名：

image_to_boxes(image, lang=None, config='', output_type=pytesseract.Output.STRING)

参数说明：

image：要识别的图像，通常是一个 PIL 图像对象。
lang：可选参数，指定要用于识别的语言。
config：可选参数，用于配置 Tesseract 的识别参数。
output_type：可选参数，指定返回结果的格式，默认为字符串。

返回值：

如果 output_type 设置为 pytesseract.Output.STRING（默认值），则返回一个包含边界框信息的字符串，每行一个边界框，每行的格式为：<字符> <x坐标> <y坐标> <右边界x坐标> <下边界y坐标> <页>

模板代码：

from pytesseract import image_to_boxes
from PIL import Image
image = Image.open('tesseract_tt2.png')

# 使用 image_to_boxes 函数进行文字识别并获取边界框信息
boxes = image_to_boxes(image)
# 打印边界框信息
for box in boxes.splitlines():
    b = box.split()
    char, x, y, x2, y2, page = b[0], int(b[1]), int(b[2]), int(b[3]), int(b[4]), int(b[5])
    print(f"字符: {char}, 位置: 左上({x},{y}), 右下({x2},{y2}), 页: {page}")

上述示例代码演示了如何使用 image_to_boxes 函数进行文字识别，并打印出识别的文本字符以及它们的位置信息。每个边界框包括字符、左上角坐标、右下角坐标和所在页。以下是输出结果：

字符: 2, 位置: 左上(13,4), 右下(34,27), 页: 0
字符: 0, 位置: 左上(45,12), 右下(55,27), 页: 0
字符: 3, 位置: 左上(64,10), 右下(78,38), 页: 0
字符: 4, 位置: 左上(90,16), 右下(102,34), 页: 0

知道这些信息我们可以做以下事情，对于这些我就没兴趣了：

文本高亮或标记：您可以使用字符的左上角和右下角坐标信息来在原始图像上绘制矩形框，从而高亮或标记文本字符。这对于可视化识别结果或提供反馈非常有用。
文本提取：通过比较字符的所在页信息，您可以将识别的文本分成不同的页面或段落。这对于处理多页文档或大型文本文件很有帮助。
文本布局分析：通过分析字符的相对位置和页码信息，您可以推断文本的布局结构，例如确定标题、段落、表格或列表的位置。这有助于自动化文档处理。
字符级别编辑：您可以根据字符的坐标信息，进行字符级别的编辑或纠正。例如，您可以检测到字符位置偏差较大的情况，并尝试进行自动校正。
文本重排：如果需要将文本重新排列成特定格式，可以使用字符的坐标信息将它们按照所在页和位置进行排序和排列。
自动分析文本流：通过字符的相对位置和页码信息，您可以自动分析文本流，例如确定文本的阅读顺序或制定自动化文档处理规则。

7. image_to_data

以下内容是参考这一篇博文：pytesseract image_to_data检测并定位图片中的文字 - LiveZingy

image_to_data 是 pytesseract 库中的一个函数，用于将图像中的文字识别并返回详细的数据，包括文本、坐标、置信度等信息。

函数签名：

image_to_data(image, lang=None, config='', output_type=pytesseract.Output.DICT, nice=0)

参数说明：

image：要识别的图像，通常是一个 PIL 图像对象。
lang：可选参数，指定要用于识别的语言。
config：可选参数，用于配置 Tesseract 的识别参数。
output_type：可选参数，指定返回结果的格式，默认为字典（pytesseract.Output.DICT）。
nice：可选参数，设置 Tesseract 进程的优先级，默认为 0。

返回值：

根据 output_type 参数的不同，image_to_data 函数返回不同的对象。常见的 output_type 包括字典、字符串、或数据对象。

如果 output_type 设置为 pytesseract.Output.DICT，则返回一个包含详细信息的字典，其中包括以下参数：

'level'：文本块的级别（例如，字、词、文本行等）。
'page_num'：文本块所在的页码。
'block_num'：文本块的编号。
'par_num'：段落编号。
'line_num'：文本行编号。
'word_num'：单词编号。
'left'、'top'、'width'、'height'：文本块的位置和尺寸信息。
'conf'：识别置信度。
'text'：识别的文本内容。

以下是一个示例代码，演示如何使用 image_to_data 函数并理解其返回的对象：

import pytesseract
from PIL import Image

# 打开图像文件
image = Image.open('tesseract_tt2.png')

# 使用 image_to_data 函数进行文字识别并获取详细信息
data = pytesseract.image_to_data(image, output_type=pytesseract.Output.DICT)

print(data)
# 打印详细信息
for i, (word, left, top, width, height, conf) in enumerate(zip(data['text'], data['left'], data['top'], data['width'], data['height'], data['conf'])):
    if i > 0:  # 第一行通常包含表头信息，可以跳过
        print(f"文本: {word}, 位置: 左上({left},{top}), 宽度: {width}, 高度: {height}, 置信度: {conf}")

{'level': [1, 2, 3, 4, 5], 'page_num': [1, 1, 1, 1, 1], 'block_num': [0, 1, 1, 1, 1], 'par_num': [0, 0, 1, 1, 1], 'line_num': [0, 0, 0, 1, 1], 'word_num': [0, 0, 0, 0, 1], 'left': [0, 13, 13, 13, 13], 'top': [0, 0, 0, 0, 0], 'width': [112, 89, 89, 89, 89], 'height': [38, 34, 34, 34, 34], 'conf': [-1, -1, -1, -1, 60], 'text': ['', '', '', '', '2034']}
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: , 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: -1
文本: 2034, 位置: 左上(13,0), 宽度: 89, 高度: 34, 置信度: 60

根据 image_to_data 的输出结果，以下是各个参数的知识点解释：

'level'：文本块的级别。这表示文本的层次结构，例如，1 表示文本块级别，2 表示词级别，以此类推。
'page_num'：文本块所在的页码。在单一图像中识别文本时，通常为 1。
'block_num'：文本块的编号。文本块是文本的更大单元，通常表示一个文本块包含多个词或多个文本行。
'par_num'：段落编号。这表示文本块所属的段落编号。
'line_num'：文本行编号。表示文本块所在的文本行编号，通常在段落内。
'word_num'：单词编号。表示文本块内的单词编号，通常在文本行内。
'left'、'top'、'width'、'height'：文本块的位置和尺寸信息。'left' 和 'top' 表示文本块的左上角坐标，'width' 和 'height' 表示文本块的宽度和高度。
'conf'：识别置信度。表示 Tesseract 对文本块的识别置信度，通常是一个分数，值越高表示置信度越高。
'text'：识别的文本内容。这是文本块中识别出的具体文本，通常包含单词或字符的文本内容。