文档处理容易“翻车”,来看看CCIG上的大咖怎么说

这篇具有很好参考价值的文章主要介绍了文档处理容易“翻车”,来看看CCIG上的大咖怎么说。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、前言

哪怕在互联网时代高速发展的今天,文档依然是人们在日常生活、工作中产生的信息的重要载体。

学生的作业、开具的发票、医生的医嘱、合同、简历、金融票据等都是通过文档来呈现的,它在我们的生活中随处可见。

现在我们为了更高效、安全的开展业务,常常需要对文档信息进行识别提取,比如:检测传递的证件是否有效,通过识别身份证照自动录入其对应的信息,以及提取手写稿的文字等场景。因此,让计算机具备阅读、理解和解释这些文档图像的能力在许多领域都具有广阔的应用价值。

然而在现阶段,文档图像的处理过程中还面临着诸多挑战:文档类型的多样产生了繁杂的版式与结构;受拍摄器材、背景环境影响,图像时常存在噪声和质量问题等:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

因为有这些问题的存在,导致在文档处理上很容易“翻车”!

幸运的是,业界有很多大佬都在努力攻克这些难点,也取得了一些进展。在这次CCIG(中国图象图形大会)上,这些大咖也做了分享,让我们来看看他们是如何面对这些问题的以及他们对文档处理的看法是怎样的。

二、大会分享

1)文档分析与识别快速进步,但仍有很大的研究空间

来自中国科学院自动化研究所的副所长刘成林分享了在人工智能大模型时代下,他对文档识别的理解。

他们团队的主要研究内容是在版面分析(分割),文本定位、文本识别、表格识别,信息提取、公式、图形、符号等:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

刘成林所长在会上带我们回顾了文档识别的研究简史,介绍了文档的种类以及现存的问题:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

还分享了他们的研究现状:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

一句话概括就是部分场景成功应用,大部分场景还不好用,在可靠性、可解释性、自适应性方面还需要提升。

另外,也分享了大模型GPT-4在文档处理中的应用:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

他认为现阶段的大模型仍有很多不足,大模型现在未进行大规模的验证,识别精度可能不高,OCR模型的设计仍然很重要。但我们还是可以在文档处理上充分利用大模型的特征表示及语言能力。

未来他们会以设计自动化,应用无人化为目标,通过深度学习+结构化模型,生成模型、领域知识,迁移学习,领域泛化(利用相关领域数据和知识)、弱监督学习,跨模态学习、预训练(自监督学习)等方法来解决文档中各种元素和内容,多语言,多场景,多类型文档这类的广度研究问题,和文档语义理解,可解释性,可信度,字符结构分析,小样本学习,自适应之类的深度研究问题。

我很认同刘成林的观点,虽然现阶段文档处理在大多场景的应用并不乐观,但利用大模型的特征表示及语言能力会是一个不错的改善方案。

2)篡改文本图像的生成与检测

随着人工智能合成技术的发展,伪造多媒体信息在网络上泛滥成灾,干扰社会舆论和秩序,严重危害国家安全和社会稳定:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

目前图像篡改生成与检测的研究都集中在自然图像,针对文本图像篡改生成与检测的相关研究较少。

2.1篡改文本图像生成

篡改文本图像生成指的是对场景图像中的指定文本进行编辑,在保留原始字体风格和背景纹理的同时,使目标文本尽可能清晰、容易辨认:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

中国科学技术大学教授谢洪涛指出生成检测的任务难点是文字、字体、背景多样性:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

也总结了现阶段几种常见模型的优缺点:

端到端场景文本擦除

1)EnsNet模型—通过条件对抗生成网络构建文本擦除器

优点:模型简单,提出文本擦除基本解决思路;

缺点:对复杂文本图像擦除效果较差;

2)EraseNet模型—引入文本感知分支,提升网络对文本区域的捕捉能力

优点:引入多级擦除策略,对擦除效果提升明显;

缺点:网络结构相较复杂,参数量较厚重;

3)CTRNet模型—以低维结构信息和高维上下文特征作为先验知识指导文本擦除和背景重建过程

优点:多维语义先验引入指导文字擦除和背景重建,针对复杂背景效果好;

缺点:同样依赖于GAN loss,训练过程相对复杂;


端到端场景文本篡改

1)SRNet模型—将文本部分和背景部分的生成方法分开学习,然后通过融合算法生成篡改图像

优点:模型简单,对简单文本篡改效果不错;

缺点:对复杂背景的文本图像篡改效果较差,对复杂字型有较重篡改痕迹;

2)SwapText模型—对目标文本形状先进行TPS变换,降低目标风格文本的合成难度

优点:对于曲形文本的篡改效果较好;

缺点:网络对整幅图像块进行编辑,存在对非文本区域的过度篡改;

3)TextStyleBrush模型—基于StyleGAN的篡改生成框架,能够自监督训练

优点:能够在真实数据集上训练;

缺点:网络结构复杂,模型难以收敛;

他们认为在场景文本图像擦除方面,之前的方法存在这些问题:没有显性解耦定位和重建操作,极大地增加了网络的学习难度,导致背景过度擦除,所有多阶段网络都采用相同的标签进行监督,无法平衡每个阶段的学习难度和网络结构,导致文字擦除不彻底。

所以他们的方法是基于迭代局部擦除的场景文本擦除,构建显性解耦的擦除网络,提出基于局部编辑的擦除策略,提升背景纹理完整性,构建平衡的多阶段擦除网络,提升文字擦除彻底性。

在场景文本图像篡改方面,存在需要文本风格图的监督,使其只能在合成数据集上训练。合成数据集与真实数据集的差异,导致网络在真实场景下篡改效果不佳;都是对图像块的所有像素点进行编辑,并未区分前景和背景区域,存在对非文本区域的过度篡改,所以他们以简化篡改文本生成网络,去掉不必要的监督过程;针对性地篡改,仅对文字区域进行编辑操作给出了针对笔迹级修改的篡改文本图像生成网络的方法。

现阶段他们还面临一些问题:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

2.2 篡改文档检测

篡改文档检测是检测文本图像中所有文本实例,并在此基础上对文本真伪性进行鉴别,包含文本定位和文本真伪性鉴别两个步骤。

篡改文档检测的应用场景是非常广泛的且非常重要:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

谢洪涛教授认为篡改文档检测的难点在于篡改文本和真实文本具有相同的语义(文本位置、几何结构),仅在局部纹理中存在一定差异,高质量的篡改文档图像数据获取困难,导致篡改文本检测网络很难在小规模样本下学到具有区分力的篡改特征:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

他也分析了主流的检测方法优缺点,分享了他们课题组的检测方法——构建通用篡改文本检测器,进行多分类目标检测任务,继承场景文本检测其对文本检测的有效性及低数据依赖。

现阶段,同样存在一些问题:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

谢洪涛教授认为篡改文本的生成与检测是矛与盾的良性互动的发展过程,还需要多领域的持续关注。

3)智能文档处理技术让世界更高效

来自上海合合信息科技股份有限公司智能技术平台事业部副总经理,高级工程师丁凯介绍了他们公司的一些产品服务和使命:致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务,以此来让世界更高效!

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

丁凯工程师介绍了他们在预处理存在弯曲、阴影、摩尔纹、不清晰的图像时的整体架构:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

以及图像弯曲矫正的方法从“只取头尾”到坐标变化再到基于偏移场的方法,建立起弯曲矫正系统的pipeline:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,他们团队通过反光擦除技术,保留笔画细节,清晰还原反光板内容:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

合合信息同样在文档图像篡改检测领域上有所建树,丁凯工程师指出了传统的基于文件标记篡改检测方法并不能有效的判断图片是否有被篡改,因为第三方软件可以抹除Exif信息:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

之后他分享了他们检测系统的架构和技术:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

此外,他们的PS检测和摩尔纹去除等服务我之前也使用过,效果都很不错,特别是PS检测方面,它也一直是很多行业迫切需要的,尤其是在保险、金融、银行等领域,如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失:

文档处理容易“翻车”,来看看CCIG上的大咖怎么说

三、总结

众所周知,现在是数字化的时代,越来越多的企业都在走向数字化的转型。然而,现实中80%的商业数据都是非结构化格式,比如邮件、图片和各种企业文档,其中非结构化文档占据了绝大多数。这样让数字化转型变得非常困难。因此,如果能实现让企业实现文档自动化处理、智能审核、自动录入等文档处理方面的功能,那一定是非常有商业前景和价值的事情。

而且随着人工智能技术的飞速发展,文档图像智能处理在医疗、教育、金融等诸多领域都会被应用,为各行各业提供更加高效、智能的文档管理和数据分析解决方案。

经过这次大会我认为,即便现在依然面临着许多困难,但我相信在不久的将来都会迎刃而解!文章来源地址https://www.toymoban.com/news/detail-476512.html

到了这里,关于文档处理容易“翻车”,来看看CCIG上的大咖怎么说的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 文档图像智能分析与处理:CCIG技术论坛的思考与展望

    摘要:本文记录了CCIG技术论坛中关于文档图像智能分析与处理的主要讨论内容。论坛聚焦于文档图像在人工智能领域的广泛应用,并介绍了来自中国科学院、北京大学、中国科学技术大学、华为云和上海合合信息科技的多位专家的演讲和观点。其中,刘成林副所长分享了人工

    2024年02月06日
    浏览(30)
  • LLamaFactory:当下最容易上手的大模型微调工具

    近日,国内的一款微调框架发布了自己的论文《LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models》,对他们的框架做了系统性的总结。该框架自推出后迅速出圈,现已斩获15.6k的star,逐步成为当下微调的首选工具。 喜欢本文记得收藏、点赞、关注。文末参与技术讨论 htt

    2024年04月29日
    浏览(26)
  • 服务器使用中容易遇见的问题和处理方法

          服务器支撑着整个企业的信息数据,对公司的信息储存、业务开展、正常运作等等环节都具有着至关重要的意义。然而,服务器在日常运行过程中,由于其复杂的硬件结构、繁琐的运行原理,经常会出现一些大大小小的问题困扰着各位。下面精心整理一些服务器的常见

    2024年01月17日
    浏览(35)
  • 【数据挖掘 | 数据预处理】缺失值处理 & 重复值处理 & 文本处理 确定不来看看?

    🤵‍♂️ 个人主页: @AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍 🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能硬件(虽然硬件还没开始玩,但一直

    2024年02月07日
    浏览(32)
  • Elasticsearch的大数据处理与分析

    Elasticsearch是一个开源的搜索和分析引擎,基于Lucene库构建。它具有高性能、可扩展性和实时性等优势,适用于大数据处理和分析场景。Elasticsearch可以处理结构化和非结构化数据,支持多种数据源和格式,如JSON、XML、CSV等。 Elasticsearch的核心功能包括搜索、分析、聚合和监控

    2024年02月19日
    浏览(33)
  • Redis当中的大Key如何进行处理

    本篇文章我们主要聊一下什么是Redis当中的大Key、大Key会造成什么影响、我们如何找到大key,如何删除大key. 很多铁子可能会认为大key,是这个key的值很大其实不是,而是key的value值很大一般对于下面这些我们可以称为大key. String 类型值大于10KB。 Hash、List、Set、Zset类型元素个数

    2023年04月09日
    浏览(22)
  • 机器翻译的大数据挑战:数据清洗与处理

    机器翻译是人工智能领域的一个重要研究方向,其目标是让计算机能够自动地将一种自然语言翻译成另一种自然语言。随着大数据时代的到来,机器翻译面临着巨大的数据挑战。这篇文章将从数据清洗和处理的角度探讨机器翻译的大数据挑战。 机器翻译具有广泛的应用,例如

    2024年04月15日
    浏览(43)
  • 你知道什么是C++的信号处理嘛?不妨来看看这篇

    名字:阿玥的小东东 学习:python、C/C++ 博客主页: 阿玥的小东东的博客_CSDN博客-pythonc++高级知识,过年必备,C/C++知识讲解领域博主 目录 signal() 函数 raise() 函数 函数声明

    2024年02月08日
    浏览(32)
  • Spark 大数据实战:基于 RDD 的大数据处理分析

    之前笔者参加了公司内部举办的一个 Big Data Workshop,接触了一些 Spark 的皮毛,后来在工作中陆陆续续又学习了一些 Spark 的实战知识。 本文笔者从小白的视角出发,给大家普及 Spark 的应用知识。 Spark 集群是基于 Apache Spark 的分布式计算环境,用于处理 大规模数据集 的计算任

    2024年01月25日
    浏览(35)
  • UnityC#字串如何获取换行符号-最基础的字串处理方法,也最容易常见错误

    C# 里面的换行符号是 rn (Java的换行符号就不是 rn 了?应该这是windows的换行符号,mac并不如此,) 以下内容并没在mac 和 linux测过(一般linux也不需要字符串) 因为换行符是占两个位的 确实是第一个是 r,第二个是 n (不是\\\"\\\\r\\\") 一行行读取也是可行的,因为绕开了逐个字扫

    2024年02月12日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包