爬虫逆向——某建筑市场监管平台的滑块验证码分析-Toy模板网

这篇具有很好参考价值的文章主要介绍了爬虫逆向——某建筑市场监管平台的滑块验证码分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

网址链接：

正文：

一、思路分析

二、图片处理

三、完整代码

网址链接：

aHR0cHM6Ly9nY3htLmh1bmFuanMuZ292LmNuL2RhdGFzZXJ2aWNlLmh0bWw=

（bs64解密可见）

正文：

注：分步的代码为示例代码，文章最后会给出图像处理部分的完整代码

一、思路分析

1、首先看验证码样式，可以看到是个滑块验证，包含一张带缺口的背景大图和一张用于拖动的小图，这类图片处理起来就比较简单。

爬虫逆向——某建筑市场监管平台的滑块验证码分析

2、再看图形验证码接口，请求没什么特别需要注意的参数

爬虫逆向——某建筑市场监管平台的滑块验证码分析

重点看一下响应预览，返回数据是一个列表，观察可知0、1元素分别是小图和大图的bs64编码，2、3元素用处下面会用到

爬虫逆向——某建筑市场监管平台的滑块验证码分析

3、画错一次验证码看看请求结果

爬虫逆向——某建筑市场监管平台的滑块验证码分析

4、在请求载荷中有moveX，verifyid。verifyid结合第二步，可知是请求图形验证码接口返回参数中的元素2；moveX应该就是拖动小图进行平移的距离。其他参数除了翻页pageIndex和列表大小pageSize外固定不变。

爬虫逆向——某建筑市场监管平台的滑块验证码分析

5、看图片可知，正确的的moveX应该是背景大图缺口的左侧边缘到背景大图左侧边缘的距离，只需要计算出这个长度即可

二、图片处理

大致分为4步：

原图：

爬虫逆向——某建筑市场监管平台的滑块验证码分析

1、二值化处理：缺口处填充空白，其他部分填充黑色。其中先对图片进行高斯模糊处理，然后做了灰度处理，最后进行二值化处理。高斯模糊等图像处理相关的看这里：python-opencv 图像处理(滤波，噪点，模糊)

以下是相关示例代码：

# 读取图片
image = cv2.imread(img1)

# 高斯模糊
GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
GAUSSIAN_BLUR_SIGMA_X = 0
image = cv2.GaussianBlur(image, GAUSSIAN_BLUR_KERNEL_SIZE, GAUSSIAN_BLUR_SIGMA_X)

# 二值化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像，必须先将图像转为灰度图
ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)

# 另存为
cv2.imwrite(img2, binary)

下面是处理后的图片：

爬虫逆向——某建筑市场监管平台的滑块验证码分析

2、边缘检测：

名词解释为图像边缘是指图像中表达物体的周围像素灰度发生阶跃变化的那些像素集合。
图像中两个灰度不同的相邻区域的交界处，必然存在灰度的快速过渡或称为跳变，它们与图像中各区域边缘的位置相对应，边缘蕴含了丰富的内在信息，如方向、阶跃性质、形状等，沿边缘走向的像素变化平缓，而垂直于边缘方向的像素变化剧烈。

绘制上图空白处的边缘后结果如下：

爬虫逆向——某建筑市场监管平台的滑块验证码分析

3、绘制外接矩形：

为方便计算距离，这里需要绘制出上图的最小外接矩形，结果如下：

爬虫逆向——某建筑市场监管平台的滑块验证码分析

4、计算外接矩形到图像左侧的距离：

实际上在绘制外接矩形时会得到矩形的边界坐标，其中最小的（x,y）为矩形的左上角坐标；最大的（x,y）为矩形的右下角坐标。即最小的坐标x就是验证码接口中的 moveX参数。

爬虫逆向——某建筑市场监管平台的滑块验证码分析

运行结果如下：

爬虫逆向——某建筑市场监管平台的滑块验证码分析

最后将得到的距离作为moveX参数去请求校验接口即可。

三、完整代码

为便于观察，将每一步的图片都进行了保存

import cv2
from PIL import Image
from loguru import logger

class OcrImg():
    def __init__(self):
        # 验证码原图
        self.img1 = './b1.png'

        # 二值化后的图片
        self.img2 = './b2.png'

        # 边缘检测后的图片
        self.img3 = './b3.png'

        # 绘制边缘矩形后的图片
        self.img4 = './b4.png'

        self.GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
        self.GAUSSIAN_BLUR_SIGMA_X = 0
        self.CANNY_THRESHOLD1 = 200
        self.CANNY_THRESHOLD2 = 450

    def main(self, input_img_file='./b1.png'):
        self.img1 = input_img_file
        self.threshold_By_OTSU()

        self.detectEdge()

        x1 = self.get_contours()
        logger.info('缺口距左侧边缘 {} 个像素'.format(x1))
        return x1

    # 图片预处理
    def threshold_By_OTSU(self):
        # 读取图片
        image = cv2.imread(self.img1)
        # 高斯模糊
        image = cv2.GaussianBlur(image, self.GAUSSIAN_BLUR_KERNEL_SIZE, self.GAUSSIAN_BLUR_SIGMA_X)

        # 二值化
        gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像，必须先将图像转为灰度图
        ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)
        cv2.imwrite(self.img2, binary)

    # 求图像img中(x,y)处像素的卷积c
    def convolute(self, img, x, y):
        juanjihe = [1, 1, 1, 1, -8, 1, 1, 1, 1]
        L = []
        xl = [x - 1, x, x + 1]
        yl = [y - 1, y, y + 1]
        for j in yl:
            for i in xl:
                gray = img.getpixel((i, j))  # 取出灰度值
                L.append(gray)
        c = 0
        for i, j in zip(juanjihe, L):
            c = c + i * j
        return c

    # 边缘检测
    def detectEdge(self):
        img1 = Image.open(self.img2)  
        img1 = img1.convert('L')  
        w, h = img1.size
        img2 = Image.new('L', (w, h), 'white')  
        for x in range(1, w - 1):
            for y in range(1, h - 1):
                c = self.convolute(img1, x, y) 
                if c > 0:
                    s = 0
                else:
                    s = 255
                img2.putpixel((x, y), s) 
        img2.save(self.img3)

    # 绘制外接矩形
    def get_contours(self):
        image = cv2.imread(self.img3)
        # 图像转灰度图
        img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        # 图像转二值图
        ret, thresh = cv2.threshold(img, 2, 255, cv2.THRESH_BINARY_INV)
        contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
        x1 = []
        y1 = []
        x2 = []
        y2 = []
        for c in contours:
            # 找到边界坐标
            x, y, w, h = cv2.boundingRect(c)
            if x != 0 and y != 0 and w != image.shape[1] and h != image.shape[0]:
                cv2.rectangle(image, (x, y), (x + w, y + h), (215, 42, 32), 2)
                x1.append(x)
                y1.append(y)
                x2.append(x + w)
                y2.append(y + h)
        x11 = min(x1)
        y11 = min(y1)
        x22 = max(x2)
        y22 = max(y2)
        print(x11, y11, x22, y22)
        cv2.imwrite(self.img4, image)
        cv2.waitKey(0)

        return x11

if __name__ == '__main__':
    ocr = OcrImg()
    # 传入图片位置
    ocr.main('./a.png')

注：本篇博客只对验证码图片进行了技术分析，不做任何数据抓取存储等操作。

文章来源地址https://www.toymoban.com/news/detail-439957.html

到了这里，关于爬虫逆向——某建筑市场监管平台的滑块验证码分析的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！