Prompt 范式产业实践分享!基于飞桨 UIE-X 和 Intel OpenVINO 实现跨模态文档信息抽取

这篇具有很好参考价值的文章主要介绍了Prompt 范式产业实践分享!基于飞桨 UIE-X 和 Intel OpenVINO 实现跨模态文档信息抽取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

近期 Prompt 范式备受关注,实际上,其思想在产业界已经有了一些成功的应用案例。中科院软件所和百度共同提出了大一统诸多任务的通用信息抽取技术 UIE(Universal Information Extraction)。截至目前,UIE 系列模型已发布 UIE、UIE-X、UIE-senta 三大模型。基于 Prompt 思想,UIE 系列模型凭借其强大的零样本与小样本能力、多任务统一建模能力,成为业界在信息抽取、情感分析等任务上的首选方案。

Prompt 范式产业实践分享!基于飞桨 UIE-X 和 Intel OpenVINO 实现跨模态文档信息抽取 
UIE系列模型(UIE、UIE-X、UIE-senta)基本信息表

本次产业实践范例基于 UIE-X 和 OpenVINO 实现医疗文档信息抽取,提供了 UIE-X 模型在 Intel x86 平台上优化部署的完整方案,降低了产业落地门槛,可迁移至金融等行业的信息抽取应用场景。

项目链接

https://aistudio.baidu.com/aistudio/projectdetail/6335929?contributionType=1

场景难点

  • 文档种类繁多、版式多样,如何有效结合文本、图片、布局信息进行建模是一大难题;
  • 传统基于序列标注的抽取方案依赖大量领域标注数据,成本极高;
  • 同一个业务中往往存在实体、关系等多种信息抽取需求,单独建模训练成本高。

模型选型

除了纯文本内容外,企业中还存在大量需要从跨模态文档中抽取信息并进行处理的业务场景,例如目前医疗领域有大量的医学检查报告单、病历、发票以及 CT 影像等医疗图片数据。为了满足跨模态文档信息抽取需求, PaddleNLP 基于文心 ERNIE-Layout 跨模态布局增强预训练模型,集成 PaddleOCR的PP-OCR、PP-Structure 版面分析等领先能力,基于大量信息抽取标注集,训练并开源了 UIE-X——首个兼具文本及文档抽取能力、多语言、开放域的信息抽取模型。

本案例为 UIE-X 在医疗领域的实战,通过少量标注+模型微调即可具备定制场景的端到端文档信息提取能力。为实现智能文档信息抽取,我们采取“定义 schema”、“Taskflow 定义”、“指定进行信息抽取的文档”的方案:

  • 第一步,基于 Prompt 范式,定义信息抽取的任务及所需抽取的信息;
  • 第二步,定义 Taskflow,包括装载定制模型。通过 task_path 指定模型权重文件的路径,路径下需要包含训练好的模型权重文件 model_state.pdparams;
  • 第三步,指定进行信息抽取的文档所在路径 doc_path,进行信息抽取。

飞桨通过庞大、精选的模型库,能够显著降低用户在模型选择方面的难度,降低时间成本,实现快速迭代。在落地阶段使用 Intel OpenVINO™ 工具套件进行模型部署,充分发挥通用x86平台上的网络执行效能,优化方案整体成本,提升方案推理性能。

调优策略

  • 基于 OpenVINO 的 auto-device 中提供的多种 performance hint 策略,根据使用场景需求的不同,进行多线程配置,提升推理吞吐量或降低延迟。
  • 支持 Intel CPU 以及 GPU 上的 Dynamic Input Shape 以提升方案在进行信息抽取时的推理性能,在保证推理时延的同时,优化方案整体成本。

模型部署

本项目的最终部署环境为 Intel x86 硬件平台设备。考虑开发便捷性,本次示例使用 Python 部署开发环境。通过输入医疗文档图片以及定义抽取信息的 schema,利用 Taskflow 框架完成基于 UIE-X 的智能信息抽取。

该方案可以支持中文及英文的 Prompt/schema 以及跨语言抽取,同时也支持定制 OCR 结果。通过配置 layout 参数传入 OCR Bounding Box 信息,优化抽取效果。飞桨 AI Studio 也提供了完整的使用示例与开发说明,可参考该教程快速学习,并针对实际项目进行开发和集成。

Prompt 范式产业实践分享!基于飞桨 UIE-X 和 Intel OpenVINO 实现跨模态文档信息抽取
医疗文档信息抽取部署demo方案

为了让小伙伴们更便捷地应用范例教程,OpenVINO 布道师武卓博士将于6月14日(周三)19:00为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行代码实践。

飞桨PaddlePaddle文章来源地址https://www.toymoban.com/news/detail-486485.html

到了这里,关于Prompt 范式产业实践分享!基于飞桨 UIE-X 和 Intel OpenVINO 实现跨模态文档信息抽取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • UIE在实体识别和关系抽取上的实践

    近期有做信息抽取的需求,UIE在信息抽取方面效果不错。 huggingface上下载UIE模型:PaddlePaddle/uie-base · Hugging Face 点击“Clone Repository”,确定git clone的链接 其中包含大文件,需要在windows安装git-lfs,在https://git-lfs.com/下载git-lfs,安装。 git lfs clone 仓库链接 UIE使用需要安装paddl

    2024年02月13日
    浏览(47)
  • 预训练新范式!为什么Prompt会更有效?

    作者 | 上杉翔二         悠闲会 · 信息检索  整理 | NewBeeNLP 「Prompt Tuning也许会是深度学习时代的Feature Engineering问题,如何给各大任务设计合理的Prompts将会是很有意思的科学问题」 --刘知远 虽然博主以前也看到了基于 Prompt-tuning 可以让GPT-3处理各种类型的任务,甚至

    2023年04月08日
    浏览(36)
  • Prompt-Tuning——深度解读一种新的微调范式

    作者:王嘉宁  邮箱:lygwjn@126.com 转载请注明出处:https://wjn1996.blog.csdn.net/article/details/120607050 本博客针对Prompt进行的综述博客,暂时为半成品,持续更新中,若对您的科研和工作有所帮助,期待您的收藏与引用。 作者简介:王嘉宁,华东师范大学 数据学院 博士生,研究

    2024年02月15日
    浏览(44)
  • 解密Prompt系列12. LLM Agent零微调范式 ReAct & Self Ask

    前三章我们分别介绍了思维链的使用,原理和在小模型上的使用。这一章我们正式进入应用层面,聊聊如何把思维链和工具使用结合得到人工智能代理。 要回答我们为什么需要AI代理?代理可以解决哪些问题?可以有以下两个视角 首先是我们赋能模型,如果说 LLM是大脑,那

    2024年02月15日
    浏览(50)
  • 实践学习PaddleScience飞桨科学工具包

    动手实践,在实践中学习!本项目可以在AIStudio平台一键运行!地址:https://aistudio.baidu.com/projectdetail/4278591 本项目第一次执行会报错,再执行一次即可。若碰到莫名其妙的报错,换成32G显存环境试试。 爱因斯坦和牛顿也是普通人,也有认识不到的地方,不要盲目崇拜,也不要

    2024年01月16日
    浏览(49)
  • 云服务器基于Centos创建个人云盘实践经验分享

    执行如下命令,下载cloudreve安装包。 下载完毕后,执行如下命令,解压cloudreve安装包 解压后通过ls命令查看文件是否解压成功 执行如下命令,给cloudreve授予权限。+x表示赋予可执行权限 这里要特别记录下初始管理员账号和密码: [Info] 2024-01-15 11:04:43 初始管理员账号:admin@

    2024年01月17日
    浏览(39)
  • B.3【智能标注】:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。

    NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等 专栏详细介绍:NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性

    2023年04月09日
    浏览(35)
  • 云计算的思想、突破、产业实践

    📕我是廖志伟,一名Java开发工程师、Java领域优质创作者、CSDN博客专家、51CTO专家博主、阿里云专家博主、清华大学出版社签约作者、产品软文创造者、技术文章评审老师、问卷调查设计师、个人社区创始人、开源项目贡献者。🌎跑过十五公里、徒步爬过衡山、🔥有过三个

    2024年02月05日
    浏览(30)
  • 下面是实践百度飞桨上面的pm2.5分类项目_logistic regression相关

    part1:数据的引入,和前一个linear regression基本是一样       part2:数据解析——也就是数据的“规格化”  首先,打算用dataMat[]和labelMat[]数据存储feature和label,并且文件变量fr 然后,是这个for line in fr.readlines()循环,就是逐行的读取字符串到line中,    比如上面的那个data.txt中

    2024年02月10日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包