计算机视觉的应用10-图片中的表格结构识别与提取实战

这篇具有很好参考价值的文章主要介绍了计算机视觉的应用10-图片中的表格结构识别与提取实战。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用10-图片中的表格结构识别与提取实战,表格结构识别在信息处理领域中具有广泛应用,但由于表格的多样性和复杂性,以及难以准确解析的布局和格式,传统的方法往往存在一定的局限性。本项目基于深度学习技术,通过训练神经网络模型,实现了高效准确的表格结构识别。本文将详细介绍该项目的研究背景、方法、实验结果以及应用前景。

目录
表格结构提取项目介绍
表格结构提取论文介绍
表格结构步骤
代码实现
总结
计算机视觉的应用10-图片中的表格结构识别与提取实战,计算机视觉的应用,计算机视觉,人工智能,表格识别

表格结构提取项目介绍

图片中表格结构提取是一种计算机视觉技术,旨在识别和提取图像中的表格结构、内容和数据。其主要目的是自动化处理包含表格的图像或文档,并将表格数据转换为结构化的形式,以便进行后续的分析和处理。

表格识别的思路:

1.图像预处理:对输入的图像进行预处理,包括图像去噪、二值化、边缘检测等操作,以便更好地提取表格区域。

2.表格定位:通过使用图像分割和特征提取的方法,自动识别和定位出图像中的表格区域。

3.表格行列识别:识别表格中的行和列,并确定它们的边界位置和大小。

4.单元格分割:将表格中的每个单元格分割出来,以便进一步分析和处理。

5.文本识别:使用光学字符识别(OCR)技术,将每个单元格中的文本内容提取出来,并进行识别和字符编码。

6.数据校正和清理:对提取出的表格数据进行校正和清理,包括去除冗余空格、修正错误格式、合并合适的单元格等。

7.结构化输出:将清洗后的表格数据以结构化的形式输出,例如保存为CSV、Excel或数据库等格式。

表格结构提取论文介绍

关于表格结构提取的论文地址:
https://openaccess.thecvf.com/content/ICCV2021/papers/Long_Parsing_Table_Structures_in_the_Wild_ICCV_2021_paper.pdf

论文主要内容:
本论文主要解决了在真实环境中从图像中解析表格结构(Table Structure Parsing,TSP)的问题。与现有研究主要集中在解析来自扫描PDF文件的布局简单、对齐的表格图像不同,我们旨在为拍摄或扫描时出现弯曲、变形或遮挡的现实场景建立实用的表格结构解析系统。为了设计这样一个系统,我们提出了一种名为Cycle-CenterNet的方法,在CenterNet基础上引入了一个新颖的循环配对模块,以同时检测和分组表格单元并形成结构化表格。在循环配对模块中,我们提出了一种新的配对损失函数用于网络训练。除了Cycle-CenterNet,我们还介绍了一个大规模数据集,名为Wired Table in the Wild(WTW),其中包括多种风格的表格在照片、扫描文件、网页等场景下的结构解析的精确注释。实验证明,我们的Cycle-CenterNet在新的WTW数据集上始终以TEDS度量标准衡量的24.6%绝对改进的准确率取得最佳效果。更全面的实验分析也验证了我们提出的TSP任务方法的优势。
计算机视觉的应用10-图片中的表格结构识别与提取实战,计算机视觉的应用,计算机视觉,人工智能,表格识别

表格结构步骤

关于Cycle-CenterNet的方法,主要是基于CenterNet,并引入了新颖的循环配对模块。其主要步骤:

1.图像预处理:首先,对输入的图像进行预处理,包括去噪、增强对比度和颜色校正等操作,以提升表格区域的清晰度和可读性。

2.表格检测:利用CenterNet进行表格的检测,即定位图像中可能存在的表格区域。CenterNet是一种基于单点目标检测的网络模型,可以高效地识别表格。

3.循环配对模块:在表格检测的基础上,引入循环配对模块。该模块通过同时检测和分组表格中的单元格,将它们组成结构化的表格。循环配对模块采用新的配对损失函数进行网络训练,以提高准确性。

4.数据集:为了验证方法的有效性,研究人员还创建了一个大规模数据集,命名为Wired Table in the Wild(WTW)。该数据集包含了多种风格的表格图像,并对这些表格的结构进行了准确注释。

5.实验分析:通过在WTW数据集上进行实验,研究人员证明Cycle-CenterNet方法相比其他方法在表格结构解析方面具有显著优势。采用TEDS度量标准评估,Cycle-CenterNet的准确率相对提升了24.6%。
在这里插入图片描述

代码实现

这里代码实现过程,主要通过直接加载table_recognition模型,省略了中间辅助的表格识别操作过程,直接开箱即用。

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
import cv2
from PIL import Image
from PIL import ImageDraw
import numpy as np

table_recognition = pipeline(Tasks.table_recognition)

def draw_box(det_res, image):
    image = Image.fromarray(image)
    draw = ImageDraw.Draw(image)
    for i in range(det_res.shape[0]):
        p0, p1, p2, p3 = order_point(det_res[i])
        draw.line([*p0, *p1, *p2, *p3, *p0], fill='red', width=5)
    image = np.array(image)
    return image

def order_point(coor):
    arr = np.array(coor).reshape([4, 2])
    sum_ = np.sum(arr, 0)
    centroid = sum_ / arr.shape[0]
    theta = np.arctan2(arr[:, 1] - centroid[1], arr[:, 0] - centroid[0])
    sort_points = arr[np.argsort(theta)]
    sort_points = sort_points.reshape([4, -1])
    if sort_points[0][0] > centroid[0]:
        sort_points = np.concatenate([sort_points[3:], sort_points[:3]])
    sort_points = sort_points.reshape([4, 2]).astype('float32')
    return sort_points


if  __name__ == '__main__':

    image_path = '333.png'
    image = cv2.imread(image_path)
    result = table_recognition(image_path)

    res= draw_box(result['polygons'], image)

    cv2.imwrite('result33.png', res)
    print('finished!')

运行结果:我们打开生成的图片看一下:
计算机视觉的应用10-图片中的表格结构识别与提取实战,计算机视觉的应用,计算机视觉,人工智能,表格识别
计算机视觉的应用10-图片中的表格结构识别与提取实战,计算机视觉的应用,计算机视觉,人工智能,表格识别

总结

在这篇论文中,主要通过提出一个新的WTW数据集和一个深度表格结构解析器Cycle-CenterNet,来解决野外环境下的表格结构解析问题。首先,我们的WTW数据集包含约14k张真实场景图像,这些图像是在野外成像条件下拍摄的,将表格结构解析的边界从数字文档图像扩展到了真实场景图像。另一方面,我们提出了一种新的野外场景表格结构识别方法,称为Cycle-CenterNet,解决了现有方法的主要弱点,包括对具有极端物理扭曲的实例的几何预测不准确以及提取不对齐表格的逻辑结构时存在的缺陷。通过全面的实验证明,所提出的方法以原则性的方式解决了上述问题,并在表格结构解析方面取得了最新的研究成果。我们希望我们提出的WTW数据集能进一步改善未来的表格识别研究。文章来源地址https://www.toymoban.com/news/detail-649108.html

到了这里,关于计算机视觉的应用10-图片中的表格结构识别与提取实战的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习在计算机视觉中的应用

    深度学习在计算机视觉中的应用 摘要: 本文介绍了深度学习在计算机视觉领域的应用,包括目标检测、图像分类、人脸识别等。通过分析深度学习在计算机视觉中的实际应用案例,阐述了深度学习在计算机视觉中的优势和未来发展趋势。 一、引言 计算机视觉是一门研究如何

    2024年02月04日
    浏览(36)
  • 共轭分布在计算机视觉中的应用

    计算机视觉(Computer Vision)是一门研究如何让计算机理解和解析图像和视频的科学。计算机视觉技术广泛应用于人工智能、机器学习、机器人、自动驾驶等领域。共轭分布(Convolution)是一种数学操作,常用于图像处理和计算机视觉领域。在这篇文章中,我们将讨论共轭分布在计算

    2024年02月20日
    浏览(29)
  • 向量转置在计算机视觉中的应用

    计算机视觉(Computer Vision)是一门研究如何让计算机理解和理解图像和视频的科学。在过去的几十年里,计算机视觉已经取得了显著的进展,从简单的图像处理任务到复杂的视觉定位、目标识别和场景理解等复杂任务。向量转置(Vector Transpose)是一种常用的数学操作,在计算机视

    2024年02月20日
    浏览(24)
  • 图像分割与语义分割在计算机视觉中的应用

    计算机视觉(Computer Vision)是人工智能领域的一个重要分支,它旨在让计算机理解和解释人类世界中的视觉信息。图像分割(Image Segmentation)和语义分割(Semantic Segmentation)是计算机视觉中的两个重要技术,它们涉及将图像中的不同部分分为不同的类别,以便计算机更好地理解图像的

    2024年03月12日
    浏览(51)
  • 人工智能在计算机视觉中的应用与挑战

    引言 计算机视觉是人工智能领域的一个重要分支,旨在让计算机能够像人一样理解和解释视觉信息,实现图像和视频的自动识别、理解和分析。计算机视觉技术已经在许多领域产生了深远的影响,如人脸识别、自动驾驶、医学影像分析等。本篇博客将深入探讨人工智能在计算

    2024年02月14日
    浏览(42)
  • 特征向量与矩阵分析在计算机视觉中的应用

    计算机视觉(Computer Vision)是人工智能领域的一个重要分支,它旨在让计算机理解和处理人类视觉系统所能看到的图像和视频。计算机视觉的主要任务包括图像处理、特征提取、图像识别、目标检测和跟踪等。在这些任务中,特征向量和矩阵分析技术发挥着关键作用。 特征向

    2024年02月01日
    浏览(50)
  • 深度注意力机制在计算机视觉中的应用

    作者:禅与计算机程序设计艺术 《深度注意力机制在计算机视觉中的应用》 《深度注意力机制在计算机视觉中的应用》 引言 随着计算机视觉领域的发展,如何对图像中的像素进行高效、准确的分类和识别成为了一个重要的挑战。传统的图像处理方法主要依赖于手工设计特征

    2024年02月07日
    浏览(34)
  • 计算机视觉的应用9-视觉领域中的61个经典数据集【大集合】的应用与实战

    大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用9-视觉领域中的61个经典数据集【大集合】的应用与实战,我们都知道计算机视觉是一门研究如何使计算机能够理解和解释数字图像或视频的技术和方法。在计算机视觉领域中,数据集是非常重要的资源,它们可以用

    2024年02月13日
    浏览(26)
  • 相对熵与KL散度在计算机视觉中的应用

    计算机视觉是人工智能领域的一个重要分支,涉及到图像处理、视频处理、图形识别等多个方面。随着数据规模的不断增加,计算机视觉中的算法也不断发展,不断拓展。相对熵和KL散度在计算机视觉中具有重要的应用价值,可以帮助我们解决许多问题。 在本文中,我们将从

    2024年01月22日
    浏览(31)
  • 基于半监督学习的深度学习在计算机视觉中的应用

    作者:禅与计算机程序设计艺术 在人工智能领域,深度学习技术逐渐成为解决复杂任务的重要手段。但如何将深度学习技术应用于计算机视觉领域仍存在很多困难。特别是在实际应用场景中,计算机视觉的目标往往是识别图像中的特定对象或场景。现有的很多深度学习模型,

    2024年02月09日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包