中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果

这篇具有很好参考价值的文章主要介绍了中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

前言

随着人工智能技术的不断演进,多模态大模型已是当下比较热的研究方向,它可以同时理解和生成多种输入和输出模态,如文本、图像、语音等,能够更好地模拟人类的多感知能力,给文档图像的分析处理带来了新的机遇和挑战!

近期,中国模式识别与计算机视觉大会在厦门举办,是国内顶级的模式识别和计算机视觉领域学术盛会。大会汇聚了国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,分享我国模式识别与计算机视觉领域的最新理论和技术成果。通过此次会议,进一步加强本领域的同行与东南沿海地区的学者和企业进行学术交流和技术碰撞,从而促进模式识别与计算机视觉领域的协同合作与融合创新。

合合信息是人工智能及大数据领域的领先企业。在本次大会中合合信息智能技术平台事业部副总经理郭丰俊博士分享了文档图像前沿技术中的成果及探索,主要包括多模态模型以及图像安全,让我们一起来了解一下吧。

一、多模态模型进展与探索

多模态大模型可以用于提高文档图像的处理和分析能力,使文档变得更易于管理、检索和理解。而文档图像是多模态天然的一个属性,它们能够为文档管理、信息提取和文档分析等任务提供有力支持。

1、GPT-4V (多模态)测试

随着 GPT-4V 到来,多模态能力发生了跃迁,不仅能理解文本,还能理解图像。经过初步的测试发现它对英文 OCR 较好,但是对中文 OCR 不理想。GPT-4V 有时会错误地将图像中的两串文字组合在一起,创造出一个虚构的术语。它还会遗漏文字或字符、忽略数学符号,以及无法识别相当明显的物体和地点设置。下图展示了 GPT-4V 的错误识别:
中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

2、LLM时代文档图像处理技术趋势

LLM 时代,文档图像处理技术在不断演进,郭丰俊博士从三个方面来介绍文档图像处理技术趋势:

  • 输入:在输入端主要使用多模态的方法,这些方法允许系统同时处理不同的数据模态,如文本、图像和语音,从而提高了系统对多种感知信息的综合理解和处理能力
  • 架构:使用通用的Transformer Encoder / Decoder 架构,它使多模态模型能够处理各种数据类型,实现综合的多模态理解和生成。
  • 数据:对于多模态的Transformer模型,需要大规模且高质量的数据来训练模型,以获得最佳性能。

3、LLM时代文档图像技术机会

GPT-4V 的到来,是否会对会对正在做 OCR、NLP 领域的研究者造成危机感呢?郭丰俊博士提出虽然新技术的诞生会引起更多的关注,但是 OCR 依然是一个很重要的技术。如今我们想要训练一个大模型,不管是参与人的模型还是像 GPT-4V,都需要大规模的数据,而 OCR 在提供数据方面是一个非常好的工具,OCR 不仅能够高效录入数据,并且还能够处理不同格式的的数据。

4、MLLM时代文档图像处理技术趋势

下面是一些在文档图像处理方面比较知名的系统。

  • BLIP2 – Saleforce:Q-Former连接图像编码器(ViT)和LLM解码器; 仅需训练Q-Former部分
  • Flamingo – DeepMind:在LLM中增加Gated Attention层引入视觉信息
  • LLaVA – Miscrosoft:将CLIP ViT-L和LLaMA采用全连接层连接; 使用GPT-4和Self-Instruct生成高质量的158k instruction following数据
  • MiniGPT – Vision CAIR Group, KAUST:ViT+ Q-Former + Vicuna
  • Nougat – Meta:Swin Transformer + Transformer Decoder 图像到序列范式; 820万页文档的数据集
  • Kosmos-2.5:Swin Transformer + Transformer Decoder 范式; 3.2亿的数据和1.3B的模型达到远超Nougat等Sota指标
  • Donut – NAVER:无需OCR, 用于文档理解的Transformer模型

5、知名文档图像大模型OCR性能分析

经过系统测评显示系统性能还需要进一步提高,郭丰俊博士提出可能是以下原因:

  • 视觉编码器的分辨率限制: OCR 系统中的视觉编码器通常用于处理文档图像,从中提取文本信息。如果视觉编码器的分辨率不足,可能导致文本识别的准确性下降。提高视觉编码器的分辨率和图像处理能力可能是提升性能的一种途径。

  • 训练数据限制: OCR 系统的性能通常受到训练数据的质量和多样性的影响。如果训练数据不足或不具代表性,系统可能难以应对各种文档类型、字体和排版风格。增加训练数据的数量和多样性可以改善性能。

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

二、图像安全

随着生成式的人工智能快速发展,越来越多的系统都能够生成图像,图像的真伪以及安全也越发重要。AI 图像安全为 AIGC 健康发展、规模化应用保驾护航,解决负面社会问题。
下图展示了 AI 图像安全在文档图像的篡改以及人脸真伪具体案例:中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

1、篡改种类

图像篡改指的是对数字图像的未经授权或欺骗性修改,以改变图像的内容或意义。分为四种类型:复制移动、拼接、擦出、重打印。下面给出证件照原始图,对图像篡改的四种类型一一解释,以身份证背面图为例,具体如下:
中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

2、系统架构

合合信息在处理图像篡时基于分割模型的图像处理,Backbone使用ConvNeXt作为编码器,使用LightHamEANet两个网络并行作为解码器。充分利用了编码器-解码器结构,其中编码器负责提取特征,解码器负责还原图像并执行分割。并行使用两个不同的解码器可以提供更多的特征表示和捕获能力,从而增强了分割性能。
中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划
在文档图像处理时,郭丰俊博士提到有两个挑战的方面:一个是大量数据的构建,构建大规模且高质量的数据集对于训练文档图像处理模型至关重要。这些数据集应该包括多种字体、多种场景、多种篡改形式、头像物体篡改,以覆盖各种应用场景;另一个是训练策略,需要不断进行优化调整。 在深度学习中,选择合适的训练策略对于模型性能至关重要。这包括超参数的调整、学习率的优化、数据增强方法的选择以及模型的选择。不断调整和优化这些策略可以帮助提高模型的性能,使其在文档图像处理任务中更加强大和可靠。

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

3、文档图像处理开放平台

合合信息针对文档图像处理,提供了PS检测开放平台,供开发者进行免费测试。基于自研篡改检测系统,可以判断图片是否被篡改,支持包含身份证、护照、驾驶证、行驶证、教师资格证,港澳通行证、海外身份证等证照,及增值税发票、普通发票、小票、合同等文档。该产品具有独特的优势:

  • 准确率高:基于海量的图片样本训练模型,针对图片模糊、倾斜、翻转等情况进行专项优化,鲁棒性强,总体识别准确率行业靠前。
  • 服务稳定:提供高可靠性、弹性可伸缩、高并发承载的云端服务,扩展性好,算法的持续迭代优化对用户使用稳定性无影响。
  • 多样部署:提供公有云 API 以及私有化部署两种方式。
    中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

4、AIGC假图鉴别

在安全领域,合合信息紧跟时代步伐做了生成式AI的鉴别工作,主要包括身份验证与访问控制、移动设备的安全检测、数字图像真实鉴定。比如我们现在有些手机、电脑、门禁等的解锁或可以使用人脸就可以解密,还有一些 ToB 的业务, 比如银行的很多业务都需要面临生成式 AI 造假带来的压力。

它的系统架构师怎么实现的呢?郭丰俊博士以人脸鉴别场景为例,提出该鉴别体系的架构是通过通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度,其中纹理的细节变化是人脸鉴别的一个非常重要的依据。
中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果,计算机视觉,人工智能,多模态模型,图像安全,文档图像处理,原力计划

5、图像篡改检测标准制定

关于图像篡改检测标准,合合信息将与中国信通院、中国图象图形学学会、中国科学技术大学一起共建并推动图像篡改监测标准,为文档图像内容安全提供可靠保障,提高图像篡改检测的一致性,推动技术创新,助力新时代AI安全体系建立。通过推动这一标准的制定和实施将有助于构建更可靠的 AI 安全体系,不仅对文档图像内容的安全具有重要意义,还可以在广泛的应用领域中推动数字安全和隐私保护。

最后

多模态模型的发展呈现出巨大的潜力,这些模型在深度学习领域中变得越来越重要。合合信息深耕智能文字识别以及商业大数据领域,结合模式识别、图像处理、神经网络、深度学习、STR、NLP打造智能文字识别服务平台,结合隐私计算、知识图谱打造商业大数据技术与资产平台,产品覆盖B端、C端,深受全球用户的喜爱。未来期待可以看到合合信息更多关于多模态模型在金融、零售、证券等领域的创新和应用,用技术方案服务更多的人群。文章来源地址https://www.toymoban.com/news/detail-712804.html

到了这里,关于中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉 计算机视觉识别是什么?

    计算机视觉识别(Computer Vision Recognition)是计算机科学和人工智能领域中的一个重要分支,它致力于使计算机系统能够模拟和理解人类视觉的过程,从而能够自动识别、分析和理解图像或视频中的内容。这一领域的发展旨在让计算机具备视觉感知和理解的能力,使其能够从视

    2024年02月07日
    浏览(55)
  • OpenCV完结篇——计算机视觉(人脸识别 || 车牌识别)

    scaleFactor调整哈尔级联器的人脸选框使其能框住人脸 官方教程指路 每个特征都是通过从黑色矩形下的像素总和减去白色矩形下的像素总和获得的单个值 级联器模型文件位置 识别嘴就会不精确了 识别鼻子 只要不测口,还是比较准确的 测口准确度太低!!! 安装很简单,这里

    2024年02月19日
    浏览(56)
  • 目标人脸检测与识别(计算机视觉)

    通过python 语言编程设计人脸检测算法,以此人脸作为训练样本,训练目标人脸模型,进一步实现目标人脸的识别。通过上述编程促进学生理解并掌握人脸检测及识别的相关原理,同时培养学生的编程能力。 笔记本电脑,windows10系统,Visual Studio Code编辑器,opencv视觉库,nump

    2024年02月08日
    浏览(55)
  • 计算机视觉实验:人脸识别系统设计

    设计 计算机视觉目标识别系统,与实际应用有关(建议:最终展示形式为带界面可运行的系统),以下内容选择其中一个做。 1. 人脸识别系统设计 (1) 人脸识别系统设计(必做):根据课堂上学习的理论知识(包括特征提取、分类器设计),设计一个人脸识别系统,该系统具

    2024年02月14日
    浏览(55)
  • 计算机视觉 - 理论 - 从卷积到识别

    Vue框架: 从项目学Vue OJ算法系列: 神机百炼 - 算法详解 Linux操作系统: 风后奇门 - linux C++11: 通天箓 - C++11 Python常用模块: 通天箓 - python 计算机视觉系列博客分两条主线:算法理论 + opencv实操 理论来源于[计算机视觉(本科) 北京邮电大学 鲁鹏 清晰完整合集](https://www.

    2024年02月11日
    浏览(49)
  • 基于计算机视觉的手势识别技术

    一个不知名大学生,江湖人称菜狗 original author: Jacky Li Email : 3435673055@qq.com Time of completion:2023.5.2 Last edited: 2023.5.2 手语是一种主要由听力困难或耳聋的人使用的交流方式。这种基于手势的语言可以让人们轻松地表达想法和想法,克服听力问题带来的障碍。 这种便捷的交流方式

    2024年02月04日
    浏览(50)
  • 计算机视觉:使用opencv实现车牌识别

    汽车车牌识别(License Plate Recognition)是一个日常生活中的普遍应用,特别是在智能交通系统中,汽车牌照识别发挥了巨大的作用。汽车牌照的自动识别技术是把处理图像的方法与计算机的软件技术相连接在一起,以准确识别出车牌牌照的字符为目的,将识别出的数据传送至交

    2024年02月04日
    浏览(51)
  • 计算机视觉项目实战-目标检测与识别

    😊😊😊 欢迎来到本博客 😊😊😊 本次博客内容将继续讲解关于OpenCV的相关知识 🎉 作者简介 : ⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉深度学习(keras、pytorch、yolov5),python网页爬虫、机器学习、计算机视觉(OpenCV)

    2024年02月02日
    浏览(52)
  • Python的计算机视觉与物体识别

    计算机视觉是一种通过计算机程序对图像进行处理和分析的技术。物体识别是计算机视觉中的一个重要分支,旨在识别图像中的物体、特征和属性。Python是一种流行的编程语言,拥有强大的计算机视觉库和框架,如OpenCV、TensorFlow和PyTorch。因此,使用Python进行计算机视觉和物

    2024年02月21日
    浏览(52)
  • 基于计算机视觉的学生上课姿态识别

    数据集 1.1  A VA 数据集介绍 AVA数据集为目前行为数据集中背景最复杂、人体目标最多的数据集,是由Google在2018年所发表的一个用于训练动作检测的数据集,该数据集注释430个15分钟电影切片中的80个原子视觉动作,在空间和时间上定位了动作,从而产生了1.62万个动作标签。这

    2024年02月02日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包