文档图像前沿技术探索 | 多模态及图像安全

这篇具有很好参考价值的文章主要介绍了文档图像前沿技术探索 | 多模态及图像安全。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

多模态模型进展与探索

大语言模型(LLM)

多模态大语言模型(MLLM)

图像安全

研究背景

系统架构

生成式AI

合合信息


前言

近期,第六届中国模式识别与计算机视觉大会(厦门PRCV 2023)顺利闭幕。PRCV 2023大会由中国计算机学会(CCF)、中国自动化学会(CAA)中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。

本次会议特邀合合信息智能技术平台事业部副总经理郭丰俊博士进行专题分享。郭博士是上海交通大学模式识别与智能系统博士,长期从事文字识别(包括手写/OCR),图像处理研究,系CSIG文档图像分析与识别专委会常务委员。对于文档图像的处理有着非常宝资深的经验,郭博士此次会议主要对多模态图像安全两大模块进行干货分享。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

多模态(GPT-4V)

2023年3月15日,Open AI发布了多模态预训练大模型GPT4.0,可以把多模态引入OCR当中。初步评估发现:英文OCR较好;中文OCR不理想;并且在识别图像时存在一些问题:

①出现缺少文本或字符(文字丢失);

②缺少数学符号(对于数学公式的识别有问题);

③无法识别空间位置和颜色(空间位置和文字颜色无法识别);

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

文档图像

文档图像从表面上来看既是文字也是图像,本质上就是一个天然多模态的属性。所以可以通过多模态的大模型来做文档图像方面的任务。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

多模态模型进展与探索

随着2022年11月30日OpenAI发布人工智能对话模型chatGPT以来,大模型技术掀起了新一轮人工智能浪潮。chatGPT在自然语言处理任务中表现出色,尤其是在生成式任务(如机器翻译、对话生成、文章摘要等)方面。越来越多的人开始关心大模型能否给我们的工作带来便捷?或者说忧虑会不会取代我们现在的工作岗位?

大语言模型(LLM)

大语言模型(LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。比较典型的代表就是chatGPT。

LLM时代文档图像处理技术趋势

输入端:采用多模态的方法;

架构方面:采用Transformer Encoder / Decoder;

数据层面:需要海量、高质量的数据;

以上都满足了才能得到一个比较好的文档图像大模型的效果!

LLM时代文档图像技术机会

chatCPT-4的出世是不是就对以前做OCR的方法产生危机?前面说了要想得到高质量的文档图像大模型的效果,在数据层面必须要有海量高质量的数据,而OCR本身就是一个提供高质量数据的工具

①可以高效的录入;

②支持不同格式;

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

并且合合信息-华南理工大学文档图像分析识别与理解联合实验室对多模态和传统的OCR在文档图像识别方向展开了研究。从目前评测的情况来看,已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。所以无论是大模型还是多态大模型的出世,OCR仍然是一个很有价值的技术!

多模态大语言模型(MLLM)

多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码。

MLLM时代文档图像处理技术趋势

知名系统:

BLIP2 – Saleforce:Q-Former连接图像编码器(ViT)和LLM解码器; 仅需训练Q-Former部分 Flamingo – DeepMind:在LLM中增加Gated Attention层引入视觉信息

LLaVA – Miscrosoft:将CLIP ViT-L和LLaMA采用全连接层连接; 使用GPT-4和Self-Instruct生成高质量的158k instruction following数据

MiniGPT – Vision CAIR Group, KAUST:ViT+ Q-Former + Vicuna

Nougat – Meta:Swin Transformer + Transformer Decoder 图像到序列范式; 820万页文档的数据集

Kosmos-2.5:Swin Transformer + Transformer Decoder 范式; 3.2亿的数据和1.3B的模型达到远超Nougat等Sota指标

Donut – NAVER:无需OCR, 用于文档理解的Transformer模型

性能分析:

下面是知名文档图像大模型OCR性能分析与传统的OCR进行比较分析,性能方面对OCR的识别率还是不如传统的方式。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

结果:系统测评的系统性能还待提高; 可能原因:视觉编码器的分辨率和训练数据限制;

图像安全

生成式人工智能AIGC(Artificial Intelligence Generated Content)是人工智能1.0时代进入2.0时代的重要标志。GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变,多模态推动AIGC内容多边形,使得AIGC具有更通用和更强的基础能力。

随着生成式人工智能(AIGC)的不断发展壮大,同时给社会带来了一系列严重的问题和挑战。其中包括截图伪造、生成式图片和身份信息泄露等方面。使得图像的真伪就难以辨别,图像安全就变的越来越重要

研究背景

大模型技术的不断突破让生成式AI拥有了更广泛的落地空间,同时也让图片伪造的门槛变得越来更低,这就给了一些不法分子可乘之机。AI图像安全为生成式人工智能(AIGC)健康发展、规模化应用保驾护航,解决负面社会问题。例如:换脸证照的篡改

AI换脸

近年来随着人工智能技术的迅速发展,AI 在图像领域的应用也日益广泛。2023年5月24日,中国互联网协会发文提示“AI换脸”新骗局,利用“AI换脸”“AI换声”等虚假音视频,进行诈骗、诽谤的违法行为屡见不鲜。合合信息发布的生成式图像鉴别技术,帮助个人及机构识别判断AI图片原始属性,规避可能存在的欺诈、伦理等方面的风险。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

主要应用场景:保险骗保、虚假积分,金融欺诈等

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

证件篡改

随着经济社会的发展,公民在越来越多的经济社会活动中需要以居民身份证等身份证明文件证明身份。一方面,伪造、变造、买卖居民身份证、护照、社会保障卡、驾驶证等依法可以用于证明身份的证件的行为,为不法分子使用伪造、变造的或者盗用他人的身份证件提供了便利。另一方面,使用伪造、变造的或者盗用他人身份证件的行为,也为不法分子伪造、变造、买卖相关身份证件的行为提供了市场需求和驱动力。

图像证件篡改的主要分为四种类型:复制移动拼接重打印

①复制移动即在原图中“抠”出关键要素再粘贴到另一处;

②拼接是将不同图像拼接成一张新图像;

③擦除能够不留痕迹地擦掉一些关键信息,如去除大面积复杂水印;

④重打印则是在擦除的基础上重新编辑新文档。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

系统架构

对于上述四种图像篡改的类型,需要先进的检测技术来大批量发现被篡改/伪造的信息,保障信息真实性,防止欺诈行为的发生!

合合信息提出了一种基于HRNet的编码器-解码器结构的图像真实性鉴别模型,使用分割模型,Backbone使用ConvNeXt作为编码器,用LightHam和EANet两个网络并行作为解码器,结合图像本身的信息包括但不限于噪声、频谱等,从而捕捉到细粒度的视觉差异,达到高精度鉴别目的。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

技术挑战

目前,图像篡改检测技术的应用也面临着篡改手段不断变化、场景复杂等系列挑战,不断提升检测系统的鲁棒性和泛化能力,是学术界与企业界需要深入合作的重要方向。

泛化研究:通过大量数据的构建去调优

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

落地现状

已经落地的行业:证券、保险、银行、零售等............

Textln开放平台:TextIn - 机器人市场 - PS检测通用版

生成式AI

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

以人脸场景为例:

模型结构:通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

结果可视化:

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

应用范围及进展:

合合信息研发了基于深度学习的图像篡改检测技术及相关系统,可检测出多种篡改形式,智能捕捉图像在篡改过程中留下的细微痕迹,并以热力图的形式展示图像区域篡改地点,相关技术已被应用于银行、保险等行业中。

①身份验证和访问控制

②移动设备的安全检测

③数字图像真实鉴定

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

图像篡改检测标准制定

中国信息通信研究院牵头,联合上海合合信息科技股份有限公司中国图象图形学学会中国科学技术大学等知名学术机构、科技创新企业,启动《文档图像篡改检测标准》制定工作。希望持续推动AI技术在图像安全领域的广泛应用,带给用户更加安全、高效的工作和生活体验。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

合合信息

上海合合信息科技股份有限公司基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。

1. C端产品:深受全球用户喜爱的效率工具

公司C端业务主要为包括扫描全能王(智能文字扫描及识别APP)、名片全能王(智能名片及人脉管理APP)、启信宝(企业商业信息查询APP)3款核心产品。全球累计用户下载超 23亿

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

2. B端服务:AI+大数据赋能数字化转型

公司B端业务为面向企业客户提供以智能文字识别、商业大数据为核心的服务,形成了包括基础技术服务、标准化服务和场景化解决方案的业务矩阵,为客户提供降本增效、风险管理、智能营销等产品及服务,助力客户实现数字化与智能化的转型升级。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

3. 智能文字识别产品:TextIn

TextIn是合合信息旗下的一站式OCR服务平台,该平台根据不同的业务场景和需求,将产品分为了通用识别、票据识别、企业证照识别、车辆相关识别、个人证件识别、港澳台证件识别、海外证件识别、文档格式转换和图像处理等,满足各种客户的图像识别和文档处理需求。

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

TextIn还可以对PS篡改检测进行体验,详细步骤如下:

第一步:打开合合信息官网:合合信息_OCR识别|智能文字识别|图片识别文字

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

第二步:点击申请使用

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

第三步:仿纂改检测效果展示,

文档图像前沿技术探索 | 多模态及图像安全,前沿技术,人工智能,前沿技术,多模态

总结:

近年来,经过深度学习篡改生成的文本图像已广泛传播于互联网,对金融票据、证件和网页内容识别等多个行业领域产生了重要影响。但是目前对于文档图像分析识别与理解的技术也有很多难题。例如:

①场景及版式多样;例如:形状不可控、光照不可控

②采集设备不确定性;例如:收集摄像头、扫描仪、工业机器人、智能机器人

③用户需求多样性;例如:高精度:金融票据、可理解:教育、档案、办公

④文档图像质量退化严重;例如:看不清

⑤文字检测及版面分析困难;例如:看不准

⑥非限定条件文字识别率低;例如:认不全

⑦结构化智能理解能力差;例如:难理解

合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,图像篡改检测技术不仅能够应用于自然场景,还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假,合合信息基于空域与频域关系建模,利用多维度特征来分辨真实图片和生成式图片的细微差异,判断图片是否由AI生成。专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术,有着非常丰富的经验,感兴趣的小伙伴可以通过以下方式进行了解:

合合信息公众号微信搜索【合合信息】

合合信息TextIn智能文字识别平台TextIn文章来源地址https://www.toymoban.com/news/detail-713054.html

到了这里,关于文档图像前沿技术探索 | 多模态及图像安全的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 多模态及图像安全的探索与思考

            第六届中国模式识别与计算机视觉大会(The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023)已于近期在厦门成功举办。通过参加本次会议,使我有机会接触到许多来自国内外的模式识别和计算机视觉领域的研究者和工业界同行,了解了目前我国模式识

    2024年02月08日
    浏览(34)
  • 1024程序员狂欢节 | IT前沿技术、人工智能、数据挖掘、网络空间安全技术

    一年一度的1024程序员狂欢节又到啦!成为更卓越的自己,坚持阅读和学习,别给自己留遗憾,行动起来吧! 那么,都有哪些好书值得入手呢?小编为大家整理了前沿技术、人工智能、集成电路科学与芯片技术、新一代信息与通信技术、网络空间安全技术,四大热点领域近期

    2024年02月06日
    浏览(67)
  • 1024程序员狂欢节有好礼 | 前沿技术、人工智能、集成电路科学与芯片技术、新一代信息与通信技术、网络空间安全技术

    🌹欢迎来到 爱书不爱输的程序猿 的博客, 本博客致力于知识分享,与更多的人进行学习交流 🚩🚩🚩 点击直达福利 一年一度的1024程序员狂欢节又到啦!成为更卓越的自己,坚持阅读和学习,别给自己留遗憾,行动起来吧! 那么,都有哪些好书值得入手呢?小编为大家整理

    2024年02月08日
    浏览(79)
  • 中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果

    随着人工智能技术的不断演进,多模态大模型已是当下比较热的研究方向,它可以同时理解和生成多种输入和输出模态,如文本、图像、语音等,能够更好地模拟人类的多感知能力,给文档图像的分析处理带来了新的机遇和挑战! 近期,中国模式识别与计算机视觉大会在厦门

    2024年02月08日
    浏览(39)
  • 深度学习:探索人工智能的前沿

    人工智能(Artificial Intelligence,简称AI)是一门研究如何使计算机能够执行通常需要人类智能的任务的领域。从早期的符号推理到现代的深度学习,人工智能经历了漫长的发展过程。 20世纪50年代,AI的奠基性工作开始,研究者们试图通过符号推理来模拟人类思维过程。然而,

    2024年01月19日
    浏览(75)
  • 人工智能前沿研究综述:对比学习、迁移学习、知识蒸馏的探索与未来展望

    导言         随着人工智能领域的不断发展,对比学习、迁移学习和知识蒸馏等研究方向成为热门话题。本文将全面探讨这些前沿研究的发展、面临的问题、解决过程,以及未来可能的研究趋势。 1. 对比学习的发展与挑战               1.1 发展历程         演

    2024年01月22日
    浏览(58)
  • 前沿技术|人工智能的崛起和发展历程

    前言: 人工智能的作用是使计算机能够模仿人类智能和学习能力,从而实现自动化、智能化和优化决策的目标。 人工智能(Artificial Intelligence,AI)的 产生源于人们对于模拟人类智能和学习过程的兴趣和探索 。这个领域的发展可以追溯到上世纪50年代,当时科学家们开始思考

    2024年02月07日
    浏览(49)
  • Claude3 AI系列重磅推出:引领多模态智能时代的前沿技术,超越GPT-4

    划重点: 🚀 Claude3系列发布,包括Haiku、Sonnet和Opus版本,Opus在多个领域超越GPT-4。 🌐 用户可免费使用Claude3Sonnet模型,支持中文,API已覆盖159个国家/地区。 📸 新增多模态图像识别提问功能,Claude3在数学与推理、可视化问答等方面超越GPT-4V。 (PS: wildcard已经可以订阅Clau

    2024年03月09日
    浏览(55)
  • 探索AI领域,AI图像安全技术助力行业健康发展

    大家好,我是哪吒。 去年11月ChatGPT横空出世之后,生成式AI向人们展示出了自己的强大力量,各种大模型如雨后春笋一样涌现,并实现了大规模的商业化。 闲暇之余,我也研究了一番,发现AI在图像处理领域具有许多卓越的优点。其中一项突出的优势是,AI可以快速准确地处

    2024年02月13日
    浏览(38)
  • 新技术前沿-2023-ChatGPT基于人工智能技术的聊天机器人

    chatgpt镜像网站 一文带你了解爆火的Chat GPT ChatGPT系列文章 为什么ChatGPT这么强?—— 一文读懂ChatGPT原理! ChatGPT是一种基于人工智能技术的聊天机器人,它可以模拟人类对话,回答用户的问题和提供相关信息。ChatGPT使用 自然语言处理技术 ,可以与用户进行语音或文本交互,

    2023年04月15日
    浏览(76)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包