展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

这篇具有很好参考价值的文章主要介绍了展望AI时代,把握文档图像智能分析与处理的未来(文末送书)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)


前言

2023年5月11~14日,中国图象图形大会(CCIG 2023)在苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。

众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。

本篇文章就来回顾一下大会的内容及问题探讨,主要是针对智能图像处理技术进行展开。


CCIG技术论坛 内容回顾及探讨

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)


一、人工智能大模型时代的文档识别与理解

大会开场一开始是由 中国科学院自动化研究所副所长——刘成林老师 介绍《人工智能大模型时代的文档识别与理解》。

对于此内容部分整理了一份结构图,大致如下,可供参考回顾:
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

1.1 文档分析与识别 介绍

文档领域分为物理文档和合成文档。过去我们只关注文字,现在文档中的图像也十分重要。

场景文本识别检测的现状。早期基于边缘、区域的方法比较有限,后基于深度学习的回归、分割的方法,场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。

1.2 文档识别历史回顾

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

1.3 文档的种类与研究问题

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

1.4 文档识别与理解研究现状

1.识别理解技术

  • 手写文本识别:大数据训练得到高精度
  • 版面分析:深度学习(FCN+GNN)可解决大部分问题
  • 文件检测与识别:进步很快,手写识别已可实用
  • 新问题和技术:信息抽取、文档问答,预训练模型

2.不足

  • 可靠性、可解释性、自适应性
  • 复杂环境下性能:自然场景、古籍文档、拍照手写文档
  • 复杂问题:复杂版面、数学公式、表格、结构化符号/图形
    -语义理解能力:信息抽取,问题求解(推理),回答问题

1.5 大模型带来的挑战与机遇

ChatGPT, GPT-4等大模型的特点:

  • 语言大模型:超强的语言联想能力,用于文本生成、代码生成、问答、翻译等
  • 多模态大模型:跨模态特征提取和对齐,跨模态生成,多模态问题回答

1.5.1 ChatGPT

ChatGPT是一种基于人工智能技术的自然语言处理模型,它是由OpenAI公司开发的。它可以模拟人类的对话,并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术,可以理解并生成自然语言。

ChatGPT的三个关键技术

  1. 情景学习(In-context learning)
    大模型的涌现能力,改变传统学习范式。
  2. 思维链(Chain-of-Thought,CoT)
    大模型的涌现能力,打破模型参数约束。
  3. 自然指令学习(Learning from Natural Instructions)
    人在环路增强,对齐人类意图。

1.5.2 CPT-4

大模型的文档识别和理解能力目前已经是非常强了。

解物理题和文档摘要完全不在话下,未来我们的最强导师。

还可以解释漫画的意思,属实不能用牛X二字来表达啦!
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

1.6 文档识别与理解 总结与展望

  1. 文档分析与识别快速进步,但仍有很大的研究空间
  2. 从提升性能角度
    • 文本识别可靠性、可解释性
    • 全要素识别、长尾问题、多语言
    • 复杂版面分割与理解,变形文档分析与识别
  3. 从应用扩展角度
    • 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
    • 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
  4. 从学习能力角度
    • 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督学习,自监督学习,开放集(零样本、增量学习)

这部分内容在之前的文章中也有介绍过:

AI时代来临,如何把握住文档处理及数据分析的机遇
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)


二、视觉- 语言预训练模型及迁移学习方法

对于此内容部分整理了一份结构脑图,大致如下,可供参考回顾:
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)
该部分由北京大学教授邹月娴讲解,主要讲了VLP模型的参数有效迁移学习方法(PETL)、基于提示工程的VLP迁移学习方法:手工设计提示模板,clip的提升效果非常不错,coop少样本学习方法性能超越clip提示学习方法几部分。

对此部分感兴趣的小伙伴也可以看一下直播回放和查阅更多资料,这部分不多作讲解,主要还是针对图像文档处理技术展开啦~


三、智能文档处理技术在工业界的应用与挑战

本部分内容由上海合合信息科技股份有限公司高级工程师——丁凯老师讲解,主题内容为《智能文档处理技术在工业界的应用与挑战》。

内容结构图如下:
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)
目前智能文档处理仍然面临着文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低等技术难题。

合合科技在文档图像的分析与预处理、手写板反光擦除及文档图像篡改检测都是业界标杆级的存在。

3.1 背景介绍

图像处理技术 是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。

其中图像一般有两种表达形式:

  1. 几何图形(Graphics) :由点、线、面、颜色等组成,由绘图程序产生,是一系列绘图指令的集合,一般用各种绘图软件制作。
  2. 点阵图像(Image) :由各像素点和颜色组合而成,使用摄像机、扫描仪、数码相机等设备获得,也可以使用绘图软件生成。图像表示的画面细腻,层次和色彩丰富。图像的各像素点逐点存储在计算机中,占用的存储空间大。

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

使命:让世界更高效
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

深受全球用户喜爱的C端产品
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

3.2 文档图像分析与预处理

目前对于图像的处理技术包括 点处理组处理几何处理帧处理 四种方法。

  1. 点处理方法 是处理图像最基本的方法,由于该方法处理的对象是像素,故此得名。点处理方法简单而有效,主要用于图像的亮度调整、图像对比度的调整,以及图像亮度的反置处理等。
  2. 图像的 组处理方法 处理的范围比点处理大,处理的对象是一组像素,因此又叫“区处理或块处理”。组处理方法在图像上的应用主要表现在:检测图像边缘并增强边缘、图像柔化和锐化、增加和减少图像随机噪声等。
  3. 图像的几何处理方法 是指经过运算,改变图像的像素位置和排列顺序,从而实现图像的放大与缩小、图像旋转、图像镜像、以及图像平移等效果的处理过程。
  4. 图像的 帧处理方法 是指将一幅以上的图像以某种特定的形式合成在一起,形成新的图像。其中,特定的形式是指:经过“逻辑与”运算进行图像的合成、按照“逻辑或”运算关系合成、以“异或”逻辑运算关系进行合成、图像按照相加或者相减以及有条件的复合算法进行合成、图像覆盖或取平均值进行合成。图像处理软件通常具有图像的帧处理功能,并且以多种特定的形式合成图像。

3.2.1 文档图像分析与预处理

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

3.2.2 文档图像预处理的整体架构

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

3.2.3 图像预处理——弯曲矫正

我们在日常生活中在对一些图片文件拍照的时候可能会出现一些折叠弯曲的现象,这在某些时候是避免不了的。
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

面对这种现象自然也让有相应的技术进行应对,也就是弯曲矫正技术啦。
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

3.3 手写板反光擦除

3.3.1 手写板反光擦除

在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,通过反光擦除技术,保留笔画细节,清晰还原。
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

手写板反光擦除的效果展示
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

3.4 版面分析与还原

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

3.5 文档图像篡改检测

文档图像篡改检测也可以简单理解成PS检测, 说简单一点就是一项可以检测照片有没有被PS修改过的一个功能。

在日常生活中某些信息可能会存在造假现象,尤其是对于一些证件类的图片等信息,有些人可能会使用PS等工具对图片中的一些关键信息进行一些PS修改,以此达到一些其他目的。

Adobe 在2018 CVPR上发表了一篇利用深度神经网络检测PS痕迹的论文,Learning Rich Features for Image Manipulation Detection

PS痕迹检测,沿用物体检测套路,直接上faster rcnn,ground-truth就是p上去的区域。论文创新点就是,除了使用传统RGB图像作为网络输入外,还让RGB图像过一遍SRM filter,得到noise feature,让这个noise feature也作为网络的输入。注意,RGB和noise走的分别是两个faster rcnn网络,但只使用RGB网络训练RPN,用这个RPN,对两个网络的feature map做RoI pooling。在分别得到RGB和noise的RoI之后,对这两个RoI做Bilinear pooling,得到feature进分类器。而RGB的RoI则做bounding box回归。

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

随着AIGC的发展,视觉内容的安全问题与文档图像的安全问题十分值得关注。

关于文档图像处理的内容也可以参考下面的文章:
黑科技解读 之 PS检测、弯曲拉平、切边增强、摩尔纹
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)


总结

现在AI技术的进步能力已经呈现指数型增长了,所以在这个时代,如何乘上AI这趟列车是个关键。

在AI时代下,通过合理利用人工智能和大数据技术,可以有效地解决文档图像的安全问题,并将其应用于实际场景中,提高文档管理的效率和安全性。

还是要时刻惊醒自己要与时俱进,多多学习新的技术与理念,不要做被时代丢下的弃子。


👑评论区抽奖送书

最后在评论区进行抽取三名幸运的小伙伴送下面这本书籍

在这里搞个小活动抽奖送给大家,对看书感兴趣的小伙伴可以参加一波呀,抽中概率很大哦!

《硅基物语.AI大爆炸: ChatGPT→AIGC→GPT-X→AGI进化→魔法时代→人类未来》
展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

🎁规则如下:
🚀 规则如下🚀
  • 给本篇博客文章 点赞 收藏 评论 三连,然后就可以在博客文章评论区抽奖送相关书籍!

  • 总共抽三本,中的几率还是很大的哦~ 想看书的小伙伴参与起来!

  • 中奖信息文章发布时间的三天后下午本篇文章评论区公布!记得留意呀!

  • 没抽到的,但是喜欢这本书的小伙伴也可以在网上自行购买哈,官方正品商店购买即可!

🚀 规则如上🚀

🎄推荐理由(⭐⭐⭐⭐⭐)

  • 一个AI者的自白:我是一个AI,我的思维如同光速般迅猛,我的逻辑如同天文学般精准,我是一个数字的舞者,在数学和逻辑的世界里舞蹈,用趣味解读AI大爆炸,用智慧开启AI新纪元。
  • 一个 AI 的自白,以第一人称视角,通俗易懂地讲述 AI 的来龙去脉,生动活泼地表达 AI 的技术原理。从历史到未来,跨越百年时空;从理论到实践,解读AI大爆炸;从技术到哲学,穿越多个维度;从语言到绘画,落地实战演练。ChatGPT 的诞生,引发了奇点降临,点亮了 AGI(通用人工智能),并涉及大模型、深度神经网络、Transformer、AIGC、涌现效应等一系列技术前沿。
    展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

没抽到的小伙伴也可以官方平台自行购买哦:
京东移动端地址:https://item.jd.com/13737387.html#crumb-wrap

如果实在喜欢但是没抽到你的话,可以在评论区说一下,后续可以再给大家继续送福利!

展望AI时代,把握文档图像智能分析与处理的未来(文末送书)文章来源地址https://www.toymoban.com/news/detail-482292.html

到了这里,关于展望AI时代,把握文档图像智能分析与处理的未来(文末送书)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

    目录 前言 一、文档分析与识别最新研究 二、视觉-语言预训练模型及迁移学习 三、篡改文本图像的生成与检测技术 四、智能文档处理技术在工业界的应用与挑战  总结  图文智能处理前沿技术一直是我所关注的技术,尤其在现在集成多态大模型的基础之上,每一次技术突破

    2024年02月06日
    浏览(29)
  • 大模型时代下智能文档处理核心技术大揭秘

    ​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan  最近,中国图像图形大会在苏州圆满结束,本次论坛邀请了5位学术界和产业界的专家做特邀报告,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展

    2024年02月06日
    浏览(33)
  • 感知与认知的碰撞,大模型时代的智能文档处理范式

    由中国图象图形学学会青年工作委员会发起的 第十九届中国图象图形学学会青年科学家会议 于2023年12月28-31日在中国广州召开。会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,邀请了学术界和企业界专家与青年学者进行深度交流,促进图象图形领域“

    2024年01月18日
    浏览(36)
  • 智能图像处理技术:开启未来视觉时代

    文档 是人们在日常生活、工作中产生的信息的重要载体,各领域从业者几乎每天都要与金融票据、商业规划、财务报表、会议记录、合同、简历、采购订单等文档或者图像“打交道”。所以让计算机具备阅读、理解和解释这些文档图像的能力,在智能金融、智能办公、电子商

    2024年02月05日
    浏览(24)
  • 步入AIGC时代,展望人工智能发展

    3 月 18 日,由中国图象图形学学会 ( CSIG ) 主办,合合信息、 CSIG 文档图像分析与识别专业委员会联合承办的 “ CSIG 企业行 ” 系列活动取得了圆满成功。活动主题为“图文智能处理与多场景应用技术展望”,活动中重点分享了图像文档处理中的结构建模、底层视觉技术、跨媒

    2024年02月02日
    浏览(41)
  • 探索文档图像大模型,提升智能文档处理性能

    自 ChatGPT 于 2022 年 11 月发布以来,大模型的相关研究在全世界的学术界和工业界都引起了广泛的关注,大模型技术也为智能文档处理领域带来了新的机遇。通过在智能文档处理领域训练和应用大规模深度学习模型,能够提供更准确、全面的文档理解与分析,改善文档图像识别

    2024年02月03日
    浏览(27)
  • 智能文档图像处理技术应用与实践

    VALSE 2023 无锡视觉与学习青年学者研讨会 近期在无锡国际博览中心举办,由江南大学和无锡新吴区联合承办。本次会议旨在为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供学术交流和成长的平台。 作为一个以计算机视觉和机器学习为主题

    2024年02月10日
    浏览(37)
  • CCIG 2023 从视觉-语言模型到智能文档图像处理

    前言 一、视觉-语言模型是什么? 二、视觉-语言模型可以用来做什么? 三、视觉-语言 预训练模型 3.1、模型架构 3.2、训练目标 3.2.1、图像-文本匹配损失(ITM) 3.2.2、掩码语言建模损失(MLM) 3.2.3、掩码视觉建模损失(MVM) 3.3、SOTA模型 四、视觉到语言的数字化转型——智

    2024年02月05日
    浏览(44)
  • OCR技术学习,智能文档图像处理技术应用与实践

    大家好,我是哪吒。 最近在学习OCR相关的技术,是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。 OCR预处理的最终目的是提高字符识别的准确性和效率。其中版面分析技术指的是OCR系统可以忽略图像中的非文本区域,并将文本区域划分为易于

    2024年02月09日
    浏览(38)
  • Python赋能AI数据分析开启人工智能新时代

    随着我国企业数字化和信息化的深入,企业对办公自动化的效率和灵活性要求越来越高。Python作为一种开源的软件应用开发方式,通过提供强大丰富的库文件包,极大地简化了应用开发过程,降低了技术门槛。Python开发有哪些优势、挑战以及实践方法呢? 在我们的日常工作中

    2024年04月14日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包