基于OpenCV-Python的图像位置校正和版面分析

这篇具有很好参考价值的文章主要介绍了基于OpenCV-Python的图像位置校正和版面分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

使用opencv对图像进行操作,要求:(1)定位银行票据的四条边,然后旋正。(2)根据版面分析,分割出小写金额区域。

基于OpenCV-Python的图像位置校正和版面分析

图像校正

首先是对图像的校正

  1. 读取图片
  2. 对图片二值化
  3. 进行边缘检测
  4. 对边缘的进行霍夫曼变换
  5. 将变换结果从极坐标空间投影到笛卡尔坐标得到倾斜角
  6. 根据倾斜角对主体校正
import os
import cv2
import math
import numpy as np
from scipy import ndimage


filepath = './task1-misc/'
filename = 'bank-bill.bmp'
filename_correct = 'bank-bill-correct.png'

def image_correction(input_path: str, output_path: str) -> bool:
    # 读取图像
    img = cv2.imread(input_path)
    # 二值化
    gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
    # 边缘检测
    edges = cv2.Canny(gray,50,150,apertureSize = 3)
    #霍夫变换
    lines = cv2.HoughLines(edges,1,np.pi/180,0)
    for rho,theta in lines[0]:
        a = np.cos(theta)   # 将极坐标转换为直角坐标
        b = np.sin(theta)
        x0 = a*rho
        y0 = b*rho
        x1 = int(x0 + 1000*(-b))    # 保证端点够远能够覆盖整个图像
        y1 = int(y0 + 1000 * a)
        x2 = int(x0 - 1000*(-b))
        y2 = int(y0 - 1000 * a)
        if x1 == x2 or y1 == y2:
            continue
        t = float(y2-y1)/(x2-x1)
        # 得到角度后将角度范围调整至-45至45度之间
        rotate_angle = math.degrees(math.atan(t))
        if rotate_angle > 45:
            rotate_angle = -90 + rotate_angle
        elif rotate_angle < -45:
            rotate_angle = 90 + rotate_angle
        # 图像根据角度进行校正
        rotate_img = ndimage.rotate(img, rotate_angle)
        # 在图中画出线
        cv2.line(img, (x1, y1), (x2, y2), (0, 0, 255), 2)
        cv2.imwrite(filepath + 'marked-'+filename_correct, img)
        # 输出图像
        cv2.imwrite(output_path, rotate_img)
        return True
    
input_path = filepath + filename
output_path = filepath + filename_correct
if image_correction(input_path, output_path):
    print("角度校正成功")

图(左)中的红线斜率和偏置是经过霍夫变换并进行极坐标转换后得到,后续将根据这条线进行角度的校正,校正后的结果如图(右)所示。

基于OpenCV-Python的图像位置校正和版面分析
为了便于后续操作,我们选择将背景去掉,保存为.png图片。
filename_clear = 'bank-bill-clear.png'
# 去除背景
def remove_background(input_path: str, output_path: str) -> bool:
    # 读取图像
    img = cv2.imread(input_path, cv2.IMREAD_UNCHANGED)

    # 检查是否已经具有 alpha 通道,如果没有则创建一个
    if img.shape[2] == 3:
        alpha_channel = np.ones_like(img[:, :, 0], dtype=img.dtype) * 255
        img = np.dstack((img, alpha_channel))

    # 提取图像的 alpha 通道(透明度)
    alpha_channel = img[:, :, 3]

    # 将白色或黑色(背景)的像素设置为透明
    alpha_channel[(img[:, :, :3] == [255, 255, 255]).all(axis=2)] = 0
    alpha_channel[(img[:, :, :3] == [0, 0, 0]).all(axis=2)] = 0
    # 保存为带有透明通道的 PNG 图像
    cv2.imwrite(output_path, img)
    return True
input_path = filepath + filename_correct 
output_path = filepath + filename_clear  
if remove_background(input_path, output_path):
    print("去除背景成功")

版面分析与分割金额区域

使用opencv对图像进行版面分析得到表格线的投影。

def detectTable(img, save_path):

    gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    thresh_img = cv2.adaptiveThreshold(~gray_img,255,cv2.ADAPTIVE_THRESH_MEAN_C,cv2.THRESH_BINARY,15,-2)
    
    h_img = thresh_img.copy()
    v_img = thresh_img.copy()
    scale = 20
    h_size = int(h_img.shape[1]/scale)

    h_structure = cv2.getStructuringElement(cv2.MORPH_RECT,(h_size,1)) # 形态学因子
    h_erode_img = cv2.erode(h_img,h_structure,1)

    h_dilate_img = cv2.dilate(h_erode_img,h_structure,1)
    # cv2.imshow("h_erode",h_dilate_img)
    v_size = int(v_img.shape[0] / scale)

    v_structure = cv2.getStructuringElement(cv2.MORPH_RECT, (1, v_size))  # 形态学因子
    v_erode_img = cv2.erode(v_img, v_structure, 1)
    v_dilate_img = cv2.dilate(v_erode_img, v_structure, 1)

    mask_img = h_dilate_img+v_dilate_img
    joints_img = cv2.bitwise_and(h_dilate_img,v_dilate_img)
    joints_img = cv2.dilate(joints_img,None,iterations=3)
    cv2.imwrite(os.path.join(save_path, "joints.png"),joints_img)
    cv2.imwrite(os.path.join(save_path, "mask.png"), mask_img)
    return joints_img, mask_img

img = cv2.imread(os.path.join(filepath, filename_clear))
_, mask_img = detectTable(img, save_path=filepath)

投影得到两张图,一张表示交叉点的投影,另一张表示表格线的投影,如下图所示,后续的边缘检测我们将用到右侧的图。

基于OpenCV-Python的图像位置校正和版面分析
def find_bound(img):
    
    # 查找图像中的轮廓
    contours, _ = cv2.findContours(img, cv2.RETR_CCOMP, cv2.CHAIN_APPROX_TC89_L1)
    
    # 遍历所有轮廓
    site = []
    for contour in contours:
        # 计算边界矩形
        x, y, w, h = cv2.boundingRect(contour)
        if 20 < w < 35 and  20 <h < 35:
            site.append((x, y, w, h),)
    site.sort(key=lambda x: (x[0], x[1], x[2], x[3]))
    return site

site = find_bound(mask_img)

mask.png,使用边缘检测,获取各个边缘的位置信息,根据所得的位置信息,在bank-bill-clear.png(对原图矫正角度并去除背景)中裁剪,并限制裁剪的图像块长宽在(20,35)的区间范围(实际尝试中并不能检测到金额区域的完整边缘,而是金额区域每个方形的边缘,(20,35)表示每个方形的长宽区间范围,如下图所示)。

基于OpenCV-Python的图像位置校正和版面分析
save_path = './task1-result'
if os.path.exists(save_path) is False:
    os.makedirs(save_path)

for i in site:
    x, y, w, h = i
    cv2.imwrite(os.path.join(save_path, f"{x}-{y}-{w}-{h}.png"), img[y:y+h, x:x+w])
(x0, y0, w, h) = site[0]
x, y = x0+(w+2)*11, y0+h*2
cv2.imwrite(os.path.join(save_path, "res.png"), img[y0:y, x0:x])

对裁剪的图像块的坐标进行排序,推测出完整金额的具体位置,并再次裁剪,得到最后结果

基于OpenCV-Python的图像位置校正和版面分析

运行环境文章来源地址https://www.toymoban.com/news/detail-805266.html

numpy==1.26.2
opencv_contrib_python==4.6.0.66
opencv_python==4.6.0.66
scipy==1.11.4

参考文献

  1. Python对图像进行倾斜校正
  2. 深入理解OpenCV中的(row,col)和(x,y)
  3. 版面分析那些事

到了这里,关于基于OpenCV-Python的图像位置校正和版面分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 在 Python 中使用 OpenCV 通过透视校正转换图像

    在计算机视觉和图像处理领域,透视变换是一个强大的工具。它允许我们改变图像的视角以获得新的视点,通常用于校正扭曲或模拟不同的相机角度。本文将探讨一个 Python 脚本,该脚本使用计算机视觉领域流行的 OpenCV 库对图像执行透视变换。我们将详细介绍该脚本的工作原

    2024年01月25日
    浏览(47)
  • 图像合成——OpenCV-Python图像融合详解

    图像合成——OpenCV-Python图像融合详解 在图像处理中,图像的合成是一项重要的任务。OpenCV提供了许多方法来实现图像合成。其中,cv::addWeighted()函数是一种常用的图像融合方法。它可以将两张图片以一定的权重相加,产生一张新的融合图像。 下面我们将详细讲解OpenCV中的c

    2024年02月14日
    浏览(51)
  • OpenCv-Python图像特征识别

    本练习学习了OpenCv-Python关于图像特征识别的一些算法,算法理解起来较为困难,但函数用起来上手比较快,主要要明白函数的输入输出的含义。 虽然算法理解不容易,但程序还算有趣,输入是一个完整的图片和一组图片碎片,如下图,然后经过算法计算,把碎片匹配到正确

    2024年02月07日
    浏览(54)
  • OpenCV-Python(49):图像去噪

    学习使用非局部平均值去噪算法去除图像中的噪音 学习函数cv2.fastNlMeansDenoising()、cv2.fastNlMeansDenoisingColored等         在前面的章节中我们已经学习了很多图像平滑技术,比如高斯平滑、中值平滑等。当噪声比较小时,这些技术的效果都是很好的。在这些技术中我们选取像

    2024年01月21日
    浏览(40)
  • OpenCV-Python中的图像基础操作

    首先读入一副图像: 获取像素值及修改的更好方法: img = cv2.imread(‘./resource/image/1.jpg’, cv2.IMREAD_COLOR) img.shape: 图像的形状(包括行数,列数,通道数的元组) img.size : 图像的像素数目 img.dtype :图像的数据类型 ROI(regionofinterest),感兴趣区域。机器视觉、图像处理中,从被

    2024年02月11日
    浏览(39)
  • OpenCV-Python中的图像处理-图像直方图

    通过直方图你可以对整幅图像的灰度分布有一个整体的了解。直方图的 x 轴是灰度值( 0 到 255), y 轴是图片中具有同一个灰度的点的数目。 BINS:上面的直方图显示了每个灰度值对应的像素数。如果像素值为 0到255,你就需要 256 个数来显示上面的直方图。但是,如果你不需

    2024年02月12日
    浏览(61)
  • opencv-python 将图像迷宫转为迷宫数组

    起因是我想做个自动走迷宫的外挂(其实是想做点实践),所以我需要在游戏中捕捉画面并自动寻路,然后再控制自动移动,此为第一部分:捕捉画面。 1.取得图像迷宫 2.处理图像 3.图像分割 4.生成数组 首先我们得捕捉屏幕画面,即获得迷宫图像,这里我是在steam上面找了一

    2024年02月07日
    浏览(48)
  • OpenCV-Python中的图像处理-视频分析

    学习使用 Meanshift 和 Camshift 算法在视频中找到并跟踪目标对象: Meanshift 算法的基本原理是和很简单的。假设我们有一堆点(比如直方 图反向投影得到的点),和一个小的圆形窗口,我们要完成的任务就是将这个窗 口移动到最大灰度密度处(或者是点最多的地方)。如下图所

    2024年02月12日
    浏览(53)
  • OpenCV-Python中的图像处理-模板匹配

    使用模板匹配可以在一幅图像中查找目标 函数: cv2.matchTemplate(), cv2.minMaxLoc() 模板匹配是用来在一副大图中搜寻查找模版图像位置的方法。 OpenCV 为我们提供了函数: cv2.matchTemplate()。和 2D 卷积一样,它也是用模板图像在输入图像(大图)上滑动,并在每一个位置对模板图像

    2024年02月12日
    浏览(45)
  • OpenCV-Python中的图像处理-霍夫变换

    霍夫(Hough)变换在检测各种形状的技术中非常流行,如果要检测的形状可以用数学表达式描述,就可以是使用霍夫变换检测它。即使要检测的形状存在一点破坏或者扭曲也是可以使用。 Hough直线变换,可以检测一张图像中的直线 cv2.HoughLines(image, rho, theta, threshold) return:返回值

    2024年02月12日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包