文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

这篇具有很好参考价值的文章主要介绍了文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

一、文档分析与识别最新研究

二、视觉-语言预训练模型及迁移学习

三、篡改文本图像的生成与检测技术

四、智能文档处理技术在工业界的应用与挑战

 总结


前言

 图文智能处理前沿技术一直是我所关注的技术,尤其在现在集成多态大模型的基础之上,每一次技术突破都有可能带来新的行业领域突破和技术变革。而图像图形处理技术有关的峰会和论文往年都比较少,想要了解最新前沿技术进展的机会较少,且现在能够运用图文处理技术的业务场景越来越多,技术需求和人员储备也越来越大,因此关于中国图象图形大会我们还是很有必要关注的

CCIG文档图像智能分析与处理论坛最近在苏州举办众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。为了促进文档图像分析与处理领域的技术交流及发展,中国图象图形学学会文档图像分析与识别专业委员会与合合信息共同打造了《文档图像智能分析与处理》高峰论坛。本次论坛中,合合信息特别邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”,寻找文档图像处理领域的未来进阶方向。

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享


一、文档分析与识别最新研究

文档图像识别的任务包括版面分析、文本识别、图形符号识别、信息抽取等。近年来,得益于深度学习方法的发展,文档识别性能快速提升,在文档数字化、票据处理、笔迹录入、智能交通、信息检索等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足,还有很多技术问题有待解决。

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

 大会刘成林所长以“大模型时代的文档识别与理解”为主题,从文档识别历史回顾出发,从文档的种类与研究问题到文档识别与理解研究现状,再从大模型带来的挑战与机遇分析,详细解答了现文档识别研究发展现状以及未来技术革新方向,并从ChatGPT, GPT-4等大模型的特点提出思考:

  • 研究工作是否被大模型替代?
  • 如何结合大模型找到研究方向?

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

 最后刘成林所长从三个方面进行了总结:

  • 从提升性能角度
    • 文本识别可靠性、可解释性
    • 全要素识别、长尾问题、多语言
    • 复杂版面分割与理解,变形文档分析与识别
  • 从应用扩展角度
    • 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
    • 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
  • 从学习能力角度
    • 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督 学习,自监督学习,开放集(零样本、增量学习)

二、视觉-语言预训练模型及迁移学习

基于大规模文本数据、Transformer和无监督预训练技术的ChatGPT毫无疑问是人工智能的里程碑技术,展示了机器智能的能力和可用性。随之而来的视觉-语言双模态超大规模预训练模型GPT-4更是展现了超人的数理能力、零样本/小样本能力。

北京大学邹月娴教授致力于跨媒体分析与理解、人机对话、深度学习理论方法与应用研究,简要分析ChatGPT的技术能力与局限性,介绍视觉-语言预训练模型及迁移学习的前沿研究成果。

视觉-语言任务是典型的跨模态机器学习任务,我们可以将图片作为媒介,利用图片对应起两种语言的单词或句子,从而完成词语,甚至是句子的翻译任务。基于图片的零样本翻译任务就是采用这样的解决思路,然而这种做法会存在两点缺陷:一是仅根据图片翻译词语,翻译模型只会对具有视觉意义的词语有很好的翻译能力,如名词,形容词,而对于图片无法明确表示的词语,翻译质量则会很差。二是这种方法只能使用包含单一目标词语的图片,而现实生活中的图片往往都是包含众多物体的复杂图片。

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

使用源语言和目标语言的(图片,内容描述)数据训练一个双语图片描述生成器,通过共享同一个图片编码器和描述生成器来迫使不同语言的词语被嵌入到同一个隐含空间内,含义相近的词语特征向量距离更近,而含义相远的词语特征向量距离更远。得到的这一特征就是词语的语言特征表示。在这种情况下,模型学习到的词语特征并不限制与图片内容一一对应,而是可以从其共存的句子环境中学到所有词语的语言信息,其中就包含“a”这类非视觉性词语。

为了不限制图片只包含单一物体,我们设计将图片的部分区域与词语相对应,而不是拿整张图片与词语对应。这就是词语的局部视觉特征表示。将图片通过卷积神经网络得到的以空间区域划分的图片特征依次输入到图片描述生成模型中,用生成相应词语的概率表示该词语与这一图片局部区域的匹配程度。根据匹配程度对这些区域图片特征做加权和,便得到了这一词语的一个局部视觉特征。当然,同一个词语所出现的图片有很多个。因此,最终每个词语都会对应一个局部视觉特征集合。

三、篡改文本图像的生成与检测技术

近年来,经过深度学习篡改生成的文本图像已广泛传播于互联网,对金融票据、证件和网页内容识别等多个行业领域产生了重要影响。基于篡改生成与检测矛与盾的关系,本报告从场景文本图像的篡改生成与篡改检测两个方面进行讲述,包括探索基于文本笔迹的文本图像生成和基于频域关系的局部纹理差异性建模,最终实现高质量的场景文本图像篡改生成以及准确的场景文本图像篡改检测。

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

中国科学技术大学谢洪涛教授团队首先从文本图像擦除的角度考虑文本擦除彻底性和背景纹理完整性,从技术意义和难点出发:

  • 字体多样性
    • 包含多种字体(或艺术字),同时字符大小和颜色等也变化多样
  • 语言多样性
    • 不同语言字形结构不同,难以生成清晰可辨认的多语言文字
  • 背景多样性
    • 背景纹理复杂多样,准确重建背景纹理困难

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

引出题组方法-场景文本图像擦除问题,提出新的评价指标-由于篡改文本图像生成方法旨在生成人眼难以鉴别的文本图像,目前的评价指标 (PSNR等)不能有效反映文本篡改图像的可视化性能。

并结合通用的篡改生成框架提出基于笔迹的场景文本图像篡改生成算法。其次,本报告提出了一种通用的自然场景文本图像篡改检测框架,并结合频域信息最大化真实和篡改文本的局部纹理差异性。

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

篡改文本图像的生成与检测是一个矛与盾的问题。篡改文本图像的生成方法能够 反映篡改文本图像检测方法的检测性能;同时,篡改文本图像检测方法也能反映篡 改文本图像生成的效果。因此两者是密不可分的,只有共同进步才能实现矛与盾的良性发展。篡改文本图像的生成与检测可以应用于文本图像的多个领域,例如:文档图像、 自然场景图像、票据图像等。因此,篡改文本图像的生成与检测具有重要的研究意义,需要更多的关注,保持多领域中篡改文本图像生成与检测的快速发展。

四、智能文档处理技术在工业界的应用与挑战

随着技术的不断发展,OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。近年来,特别是深度学习技术出现以后,智能文档处理的各项技术均取得了突破性的进展。然而在实际的工业界场景中仍然面临着大量的问题和挑战,例如文档图像中的形变/弯曲及光照影响、文档篡改检测、复杂文档图像的版式还原,以及各种复杂场景下的文档的识别与理解难题。

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

合合信息依托自研的TextIn智能文字识别服务平台,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。

合合信息智能文档处理技术采用精准的图像裁剪、形变矫正以及去除阴影和摩尔纹等技术,利用人工智能技术对文档图像进行增强和清晰度提升,从而提高文档图像的质量和阅读体验。通过这种方法,可以有效提升文档处理下游任务的质量和效率,例如识别转换和图像分析等。目前,该技术已经被应用于智能文字识别产品,为来自全球上百个国家和地区的数亿用户提供了服务。
文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

文档处理与人工智能的结合,可以实现对大量文档的自动化处理和分析,提高工作效率和准确性,降低人力成本和时间成本,对于企业的知识管理和业务分析具有重要的意义。 此外,未来的图文智能处理技术也将会更加可定制化,根据不同的行业和应用场景,为客户提供量身定制的解决方案。这将有助于满足客户的不同需求,提升客户的体验和满意度。

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

 而且更有技术难度和实践意义的拍照出现反光问题也得到了非常好的解决方法:

文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

 

单张图像去反射。在某些情况下,反射的外观可能含有一些线索。例如,在对焦在背景时,反射可能失焦,且因此看起来模糊。当玻璃比较厚的时候,可能产生鬼影效果。然而,这些线索在很多时候并不成立。现实世界中的反光很可能是清晰且无鬼影的。当反射的外观不符合算法假设时,算法的效果常常会剧烈下降。

多张图像去反射。一些去反射方法利用在反射和背景的不同运动状态来进行去反射。 但是,拍摄不同的运动图像会花费更多的精力(用户需要移动手机)。还有一些方法利用了偏振光,但是偏振相机还没有被广泛运用。最近,深度卷积网络 (CNN) 在诸如图像识别、图像生成等计算机视觉任务取得了巨大的成功。同样的,在图像去任务上,深度卷积网络的强大表征能力同样表现出了不错的效果。合合信息正是采用基于学习的算法实现手写板反光擦除。


 总结

根据众位学术技术大咖的分享来看,未来图文智能处理的发展将会更加智能化、自动化和可定制化。具体来说,未来的图文智能处理技术将会更加注重生成式人工智能技术的应用,例如深度学习、自然语言处理、计算机视觉等。这将使得处理效果更加准确和高效。同时,未来的图文智能处理技术将会更加自动化,例如自动识别文档类型、自动分类文档、自动提取文档信息等,这将进一步提高文档处理的效率和准确性。此外,未来的图文智能处理技术也将会更加可定制化,根据不同的行业和应用场景,为客户提供量身定制的解决方案。这将有助于满足客户的不同需求,提升客户的体验和满意度。
合合信息深耕人工智能17年,全球累计用户下载量23亿,享有国内外发明专利113项,在顶级AI竞赛获得15项世界冠军,提供行业智能解决方案30个。相信合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人。文章来源地址https://www.toymoban.com/news/detail-455168.html

到了这里,关于文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉重磅会议VAlSE2023召开,合合信息分享智能文档处理技术前沿进展

    近期, 2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技

    2024年02月09日
    浏览(52)
  • 智能文档图像处理技术:解决大数据时代文档图像处理难题

    智能文档图像处理技术是指利用计算机视觉和人工智能等技术对文档图像进行处理和分析,实现自动化识别、提取、分类和管理的技术。随着人工智能时代的到来和各行业信息化进程的加速,越来越多的个人和企业用户开始借助智能文档图像处理技术来提高工作效率,降低人

    2024年02月09日
    浏览(29)
  • 智能文档图像处理技术应用与实践

    VALSE 2023 无锡视觉与学习青年学者研讨会 近期在无锡国际博览中心举办,由江南大学和无锡新吴区联合承办。本次会议旨在为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供学术交流和成长的平台。 作为一个以计算机视觉和机器学习为主题

    2024年02月10日
    浏览(34)
  • 文档图像前沿技术探索 | 多模态及图像安全

    目录 前言 多模态模型进展与探索 大语言模型(LLM) 多模态大语言模型(MLLM) 图像安全 研究背景 系统架构 生成式AI 合合信息 近期, 第六届中国模式识别与计算机视觉大会(厦门PRCV 2023)顺利闭幕 。PRCV 2023 大会由 中国计算机学会 (CCF)、 中国自动化学会 (CAA) 、 中国

    2024年02月08日
    浏览(26)
  • OCR技术学习,智能文档图像处理技术应用与实践

    大家好,我是哪吒。 最近在学习OCR相关的技术,是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。 OCR预处理的最终目的是提高字符识别的准确性和效率。其中版面分析技术指的是OCR系统可以忽略图像中的非文本区域,并将文本区域划分为易于

    2024年02月09日
    浏览(35)
  • 关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享

    10月14日第六届中国模式识别与计算机视觉大会在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。

    2024年02月08日
    浏览(28)
  • 文档处理容易“翻车”,来看看CCIG上的大咖怎么说

    哪怕在互联网时代高速发展的今天,文档依然是人们在日常生活、工作中产生的信息的重要载体。 学生的作业、开具的发票、医生的医嘱、合同、简历、金融票据等都是通过文档来呈现的,它在我们的生活中随处可见。 现在我们为了更高效、安全的开展业务,常常需要对文

    2024年02月08日
    浏览(27)
  • 前沿技术探究|区块链的故事你真的知道吗?

    前言: 区块链的作用是实现去中心化的安全数据传输和交易验证。 区块链是在2008年由中本聪(Satoshi Nakamoto)提出的概念,它作为比特币(Bitcoin)的底层技术而首次被广为人知。中本聪提出区块链作为一种去中心化的分布式账本技术, 旨在解决传统金融系统中的信任问题

    2024年02月08日
    浏览(40)
  • 探索文档图像大模型,提升智能文档处理性能

    自 ChatGPT 于 2022 年 11 月发布以来,大模型的相关研究在全世界的学术界和工业界都引起了广泛的关注,大模型技术也为智能文档处理领域带来了新的机遇。通过在智能文档处理领域训练和应用大规模深度学习模型,能够提供更准确、全面的文档理解与分析,改善文档图像识别

    2024年02月03日
    浏览(24)
  • 智能文档处理技术综述

    智能文档处理(Intelligent Document Processing, IDP)是利用人工智能(AI)、机器学习(ML)、计算机视觉(CV)、自然语言处理(NLP)等技术自动化地捕获、理解、处理和分析文档内容的过程。不同于传统的文档管理系统,IDP能够处理结构化、半结构化和非结构化的文档,从而提

    2024年03月27日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包