常用的表格检测识别方法——表格内容识别方法

这篇具有很好参考价值的文章主要介绍了常用的表格检测识别方法——表格内容识别方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第三章 常用的表格检测识别方法

3.3表格内容识别方法

  表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。

从文档中抽取关键信息已经被研究了几十年。在基于深度学习的方法出现之前,早期的工作主要依赖于已知模板中的一些规则或人为设计的特性,因此它们通常在没见过的模板上失败,在实际应用中不可适配。随着深度学习的发展,在信息抽取领域取得了重大进展。如上所述,大多数基于深度学习的方法将信息抽取定义为一个token分类问题。除了上述工作外,M. Carbonell还提出了一种基于CNN的方法,即从输入的文档图像中联合进行手写文本检测、转录和命名实体识别。除了这个范式之外,信息抽取也可以作为其他问题来表述。Majumder等人提出了一种利用先验知识提取关键领域值的方法。对于每个字段,首先选择一些候选词。然后,将每个字符的结构嵌入其上下文信息,计算该嵌入与目标域嵌入之间的余弦相似值作为相似度得分。

SPADE(SPAtial DEpendency parser)[W. Hwang等人]将信息抽取定义为一个空间依赖性解析问题。它构建了一个以文本段和字段作为图节点的依赖图,然后使用解码器从识别的图节点之间的连通性中提取字段值。BROS(BERT Relying On Spatiality)[Hong等人]通过提出了一种新的位置编码方法和一种基于区域掩蔽的预训练目标,进一步改进了SPADE。另一类方法[R. B. Palm等人,H. Guo等人,C. Sage等人]采用在其他NLP或图像理解任务中使用的序列到序列模型,直接预测关键字段的所有值,而不需要字符监督。Xiao等人构建了一个具有句子嵌入的二维文本嵌入图,并将该文本图和视觉特征与全卷积网络相结合,用于表格、章节标题、标题、段落等图像区域的像素级分割。Raphael等人提出了一种多模态神经模型,通过将一个二维文本嵌入到CNN模型的中间层,以便在历史报纸上进行更细粒度的分割任务。

还有一些研究人员认为,文档的图像特征非常有用,因为图像特征是字体、字形、颜色等的混合表示。由于信息抽取任务涉及文档图像,一些研究人员将其视为一项纯粹的计算机视觉任务。这些方法从光学字符识别(OCR)的角度解决了信息抽取任务。对于每一种类型的实体,这些方法设计了相应的解码器,负责识别文本内容并确定其类别。由于缺乏语义特征,这种方法在面对复杂的布局时不能很好地工作。

研究人员从不同的角度探讨了信息抽取任务。Hwang等人和Jiang等人基于坐标信息序列化文本片段,并将坐标输入到序列标记器。然而,简单地将该位置视为某种特征,可能不能充分利用文本之间的视觉关系。为了充分利用语义特征和位置信息,Chargrid [Katti等人]将字符映射到一个热向量上,从而填充文档图像上的字符区域。将带有语义信息的图像输入CNN进行检测,并进行语义分割,提取实体。后来的BERTgrid [Denk和Reisswig等人]采用了类似的方法,但使用了不同的字符嵌入方法。然而,它通过使用通道特性来表示语义,引入了大量的计算,特别是具有大类别的语言。

因此,以语义特征作为节点特征,以文本片段的空间位置特征作为边缘特征,构建全局文档图通常是一种更好的解决方案。另外几种方法[Qian等人,Liu等人,Yu等人,Gal等人,Cheng等人]使用GNN对文档的布局信息进行建模。通过节点之间传递的消息,这些模型可以学习每个文本的总体布局和分布,这有助于后续的实体提取。例如,Gui等人提出了一种基于词汇的图神经网络,将中文NER(命名实体识别)视为节点分类任务。此外,GraphIE [Qian等人]和Liu等人提出的模型通过GNN提取视觉特征,增强BiLSTM-CRF模型的输入,被证明是有效的。与全连接或手工制作的图不同,PICK [Yu等人]通过图学习预测了节点之间的连接,这也提高了结果。这些方法使用GNN编码文本嵌入,给定视觉上丰富的上下文,以隐式地学习键-值关系。

表格信息抽取方面,国外的研究者在基于序列的方法上比较突出,提出了LAMBERT,TILT等一批优秀的模型,这与国外长期积累的语言模型发展经验有关,在基于二维特征网格的方法上国外也有较早的探索,提出了Chargrid和BERTgrid等经典模型,而对于基于图的方法研究较少;而国内的研究者在基于图和基于二维特征网格的方法上有着世界领先的水平,PICK,MatchVIE和ViBERTGrid等方法在各种信息抽取任务上名列前茅。总的来说,近年来国内外研究者对表格内容识别都非常关注,这一领域的方法也呈现出多元化发展的态势。

 文章来源地址https://www.toymoban.com/news/detail-493484.html

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

到了这里,关于常用的表格检测识别方法——表格内容识别方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景

    【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等 专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、

    2024年02月09日
    浏览(56)
  • OCR表格识别(三)——文本检测与文本识别理论学习

    图像识别其实是一个从低层次到高层级特征学习的过程。底层级的特征比较抽象,二高层及的特征比较概念化。在图像识别过程中,也就是从图像像素特征,到图像的形状、轮廓,然后到概念,并进行整合,分类,最终得到目标特征,识别到人脸等。再怎么复杂的信息都是由

    2024年02月05日
    浏览(50)
  • Table Transformer做表格检测和识别实践

    计算机视觉方面的三大顶级会议:ICCV,CVPR,ECCV.统称ICE CVPR 2022文档图像分析与识别相关论文26篇汇集简介 论文: PubTables-1M: Towards comprehensive table extraction from unstructured documents是发表于CVPR上的一篇论文 作者发布了两个模型,表格检测和表格结构识别。 论文讲解可以参考【论文阅

    2024年02月04日
    浏览(74)
  • Python Opencv 图片识别表格:边框线检测

    Python数据开发工作需求对图片做边框线检查和图片中的直线,非常实用建议收藏 下面需要用模块,先安装一下: 该示例代码使用边缘检测和霍夫变换提取图片中的直线,然后根据直线数量来判断是否有表格。这只是一个简单的示例,具体的判断方法和算法需要根据具体情况

    2024年02月16日
    浏览(39)
  • 保护Excel表格的4种常用方法

    今天来说说,根据不同需求,我们可以给Excel表格设置保护的4种常用方法,记得保存收藏,总有一个适合你。 方法一: 如果不想Excel表格被他人随意打开,可以设置“打开密码”,这样只有输入设置的密码才能打开表格。 首先,在Excel表格中依次选择菜单中的【文件】-【信

    2024年02月10日
    浏览(42)
  • python: 处理表格日期的常用场景和方法

    1. 提取日期 有时候我们只需要从日期中提取出年、月、日等信息,以便更好地进行数据分析和可视化。可以使用 dt 属性实现: 2. 计算时间差 在时间序列分析中,我们通常需要计算时间差,例如两个日期之间的天数、小时数等。可以使用 timedelta 实现: 3. 将日期列设为索引

    2023年04月15日
    浏览(38)
  • 基于vue和element-ui的表格组件,主推数据渲染,支持内容和方法灵活绑定,提供动态具名插槽自定义内容

            组件名为commonTable,主要是基于element-ui中的表格组件进行二次封装的组件,集成了常用的表格功能,除默认内容的显示外,还包括以下几点:         1. 状态的筛选和显示;         2. 操作按钮的显示和方法绑定;         3. 自定义具名插槽内容的封装;      

    2024年02月07日
    浏览(50)
  • 小程序内容安全检测图片过大的解决方法

    目前微信官方对小程序的内容安全审核越发严格,几乎只要涉及到输入框或者图片选择按钮都需要接入内容安全审核,不然都没办法通过审核。文本检测很简单,只要将文字直接提交到云端进行检测就可以了,但是在接入图片的时候总会有一些问题。 今天主要说一下图片审核

    2024年02月03日
    浏览(52)
  • 三种目标检测方法(基于传统数字图像处理的识别方法、基于传统机器学习的识别方法和基于深度学习的识别方法)的区别

    问题描述:图像检测分为了基于传统数字图像处理的识别方法、基于传统机器学习的识别方法和基于深度学习的识别方法,但是有时迷惑三者的区别是什么呢? 问题解答: 第一,基于传统数字图像处理的识别方法和其他两者的区分在于基于传统图像处理方法没有损失函数,

    2024年02月12日
    浏览(39)
  • 死锁检测的常用3种方法

    死锁(Dead Lock)是指两个或两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程。 接下来,我们先来演示一下

    2024年02月03日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包