OCR提取学历证信息

这篇具有很好参考价值的文章主要介绍了OCR提取学历证信息。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang="ch",use_gpu=True)
[2023/07/01 01:12:07] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=True, use_xpu=False, use_npu=False, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, image_dir=None, page_num=0, det_algorithm='DB', det_model_dir='C:\\Users\\37740/.paddleocr/whl\\det\\ch\\ch_PP-OCRv3_det_infer', det_limit_side_len=960, det_limit_type='max', det_box_type='quad', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5, max_batch_size=10, use_dilation=False, det_db_score_mode='fast', det_east_score_thresh=0.8, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_sast_score_thresh=0.5, det_sast_nms_thresh=0.2, det_pse_thresh=0, det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, scales=[8, 16, 32], alpha=1.0, beta=1.0, fourier_degree=5, rec_algorithm='SVTR_LCNet', rec_model_dir='C:\\Users\\37740/.paddleocr/whl\\rec\\ch\\ch_PP-OCRv3_rec_infer', rec_image_inverse=True, rec_image_shape='3, 48, 320', rec_batch_num=6, max_text_length=25, rec_char_dict_path='C:\\Users\\37740\\AppData\\Roaming\\Python\\Python310\\site-packages\\paddleocr\\ppocr\\utils\\ppocr_keys_v1.txt', use_space_char=True, vis_font_path='./doc/fonts/simfang.ttf', drop_score=0.5, e2e_algorithm='PGNet', e2e_model_dir=None, e2e_limit_side_len=768, e2e_limit_type='max', e2e_pgnet_score_thresh=0.5, e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_pgnet_valid_set='totaltext', e2e_pgnet_mode='fast', use_angle_cls=True, cls_model_dir='C:\\Users\\37740/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_image_shape='3, 48, 192', label_list=['0', '180'], cls_batch_num=6, cls_thresh=0.9, enable_mkldnn=False, cpu_threads=10, use_pdserving=False, warmup=False, sr_model_dir=None, sr_image_shape='3, 32, 128', sr_batch_num=1, draw_img_save_dir='./inference_results', save_crop_res=False, crop_res_save_dir='./output', use_mp=False, total_process_num=1, process_id=0, benchmark=False, save_log_path='./log_output/', show_log=True, use_onnx=False, output='./output', table_max_len=488, table_algorithm='TableAttn', table_model_dir=None, merge_no_span_structure=True, table_char_dict_path=None, layout_model_dir=None, layout_dict_path=None, layout_score_threshold=0.5, layout_nms_threshold=0.5, kie_algorithm='LayoutXLM', ser_model_dir=None, re_model_dir=None, use_visual_backbone=True, ser_dict_path='../train_data/XFUND/class_list_xfun.txt', ocr_order_method=None, mode='structure', image_orientation=False, layout=True, table=True, ocr=True, recovery=False, use_pdf2docx_api=False, lang='ch', det=True, rec=True, type='ocr', ocr_version='PP-OCRv3', structure_version='PP-StructureV2')
#要识别图片的路径:
img_path = r"C:\Users\37740\Pictures\Screenshots\1.png"

OCR提取学历证信息,ocr,python,人工智能文章来源地址https://www.toymoban.com/news/detail-528733.html

#识别结果:
result = ocr.ocr(img_path, cls=True)
[2023/07/01 01:13:30] ppocr DEBUG: dt_boxes num : 18, elapse : 7.974095821380615
[2023/07/01 01:13:30] ppocr DEBUG: cls num  : 18, elapse : 0.03300142288208008
[2023/07/01 01:13:30] ppocr DEBUG: rec_res num  : 18, elapse : 0.2569854259490967
for line in result[0]:
    print(line)
[[[541.0, 227.0], [590.0, 227.0], [590.0, 243.0], [541.0, 243.0]], ('1927', 0.8937745094299316)]
[[[358.0, 268.0], [768.0, 268.0], [768.0, 312.0], [358.0, 312.0]], ('学士学位证书', 0.9404186606407166)]
[[[281.0, 346.0], [308.0, 346.0], [308.0, 365.0], [281.0, 365.0]], ('女', 0.5978937149047852)]
[[[334.0, 345.0], [630.0, 346.0], [630.0, 369.0], [334.0, 368.0]], ('1990年11月16日生:在', 0.9189730286598206)]
[[[662.0, 347.0], [806.0, 347.0], [806.0, 367.0], [662.0, 367.0]], ('南京晓庄学院', 0.8395994305610657)]
[[[198.0, 400.0], [415.0, 400.0], [415.0, 420.0], [198.0, 420.0]], ('经济学(金融与保险)', 0.886256992816925)]
[[[521.0, 400.0], [842.0, 400.0], [842.0, 420.0], [521.0, 420.0]], ('专业完成本科学习计划业已', 0.9024704098701477)]
[[[106.0, 455.0], [858.0, 447.0], [858.0, 474.0], [106.0, 481.0]], ('毕业,经审核符合《中华人民共和国学位条例》的规定授予经济学', 0.9644796252250671)]
[[[106.0, 509.0], [211.0, 506.0], [212.0, 534.0], [106.0, 536.0]], ('学士学位', 0.8394070863723755)]
[[[508.0, 552.0], [622.0, 552.0], [622.0, 581.0], [508.0, 581.0]], ('院长', 0.9888302087783813)]
[[[197.0, 597.0], [346.0, 594.0], [347.0, 618.0], [197.0, 621.0]], ('南京晓庄学院', 0.9270262718200684)]
[[[484.0, 589.0], [657.0, 589.0], [657.0, 612.0], [484.0, 612.0]], ('学位评定委员会主席', 0.9949430823326111)]
[[[743.0, 644.0], [999.0, 638.0], [999.0, 663.0], [744.0, 669.0]], ('〇六年六月三十日', 0.8751929998397827)]
[[[101.0, 661.0], [186.0, 657.0], [187.0, 681.0], [102.0, 685.0]], ('证书编号', 0.9989465475082397)]
[[[476.0, 685.0], [667.0, 681.0], [667.0, 701.0], [476.0, 704.0]], ('普通高等教育本科毕业生', 0.9703378081321716)]
[[[938.0, 749.0], [1044.0, 749.0], [1044.0, 777.0], [938.0, 777.0]], ('迈成教育', 0.9693202376365662)]
[[[12.0, 773.0], [208.0, 774.0], [208.0, 799.0], [12.0, 797.0]], ('搜狐号@转本小达人', 0.9803941249847412)]
#结果输出展示:
for line in result[0]:
    print(line[1][0])
1927
学士学位证书
女
1990年11月16日生:在
南京晓庄学院
经济学(金融与保险)
专业完成本科学习计划业已
毕业,经审核符合《中华人民共和国学位条例》的规定授予经济学
学士学位
院长
南京晓庄学院
学位评定委员会主席
〇六年六月三十日
证书编号
普通高等教育本科毕业生
迈成教育
搜狐号@转本小达人
#结果输出展示:
istr=""
for line in result[0]:
    istr=istr+"#"+line[1][0]
print(istr)
#1927#学士学位证书#女#1990年11月16日生:在#南京晓庄学院#经济学(金融与保险)#专业完成本科学习计划业已#毕业,经审核符合《中华人民共和国学位条例》的规定授予经济学#学士学位#院长#南京晓庄学院#学位评定委员会主席#〇六年六月三十日#证书编号#普通高等教育本科毕业生#迈成教育#搜狐号@转本小达人
import openai
def get_completion_from_messages(prompt, 
                                 model="gpt-3.5-turbo", 
                                 temperature=0, 
                                 max_tokens=500):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=temperature, # this is the degree of randomness of the model's output
        max_tokens=max_tokens, # the maximum number of tokens the model can ouptut 
    )
    return response.choices[0].message["content"]
prompt = f"""

从文本段落中提取以下信息:姓名、出生日期、学校名称、毕业形式、学历、专业、毕业日期。 \
文本段落通过前后三个井号来界定范围。 \
将您的反馈结果格式化为一个JSON对象,以"姓名"、"出生日期"、"学校名称"、"毕业形式"、"学历"、"专业"、"毕业日期"作为key。
如果信息未提供, 使用"unknown" 作为值。
文本段落:###{istr}###

"""

prompt
'\n\n从文本段落中提取以下信息:姓名、出生日期、学校名称、毕业形式、学历、专业、毕业日期。 文本段落通过前后三个井号来界定范围。 将您的反馈结果格式化为一个JSON对象,以"姓名"、"出生日期"、"学校名称"、"毕业形式"、"学历"、"专业"、"毕业日期"作为key。\n如果信息未提供, 使用"unknown" 作为值。\n文本段落:####1927#学士学位证书#女#1990年11月16日生:在#南京晓庄学院#经济学(金融与保险)#专业完成本科学习计划业已#毕业,经审核符合《中华人民共和国学位条例》的规定授予经济学#学士学位#院长#南京晓庄学院#学位评定委员会主席#〇六年六月三十日#证书编号#普通高等教育本科毕业生#迈成教育#搜狐号@转本小达人###\n\n'
response = get_completion_from_messages(prompt)
print(response)
{
  "姓名": "unknown",
  "出生日期": "1990年11月16日",
  "学校名称": "南京晓庄学院",
  "毕业形式": "unknown",
  "学历": "学士学位",
  "专业": "经济学(金融与保险)",
  "毕业日期": "2006年6月30日"
}

到了这里,关于OCR提取学历证信息的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ocr、人工智能、文字识别接口

    人工智能这个词近几年热度颇高,工业上有人称之为“机器代工”,生活中有人称之为“物联网”,而所体现出来的就是智能化,减少人工参与。翔云公有云平台应运而生,提供的OCR API及实名认证API使产品智能化,自动进行图片文字识别及身份证、手机号、银行卡、发票等信

    2024年04月26日
    浏览(31)
  • 人工智能OCR领域安全应用措施

    引言 编写目的 随着新一轮科技革命和产业变革的深入发展,5G、大数据、云计算、深度学习等新技术日益成为推动社会进步的核心动力。人工智能(AI)作为这些新技术的集大成者,正迅速成为新型基础设施建设的战略性支柱,其广泛应用和深度融合正重塑着各行各业的运营

    2024年03月14日
    浏览(36)
  • 免费,开源,可批量的离线图片文字提取软件OCR

    免费,开源,可批量的离线OCR软件 适用于 Windows7 x64 及以上 免费 :本项目所有代码开源,完全免费。 方便 :解压即用,离线运行,无需网络。 批量 :可批量导入处理图片,结果保存到本地 txt / md / jsonl 多种格式文件。也可以即时截屏识别。 高效 :采用 PaddleOCR-json C++ 识别

    2024年02月07日
    浏览(39)
  • C#实战:基于腾讯OCR技术实现企业证书识别和数据提取实践

    在当今数字化时代,OCR(Optical Character Recognition)识别技术正发挥着越来越重要的作用。OCR技术通过将图像中的文字转化为可编辑的文本形式,实现了对大量纸质文档的数字化处理和信息提取。常见的有企业资质证书的识别到身份证、护照等各类证件的自动识别等方面,OCR技

    2024年02月10日
    浏览(25)
  • 在OK3588板卡上部署模型实现人工智能OCR应用(十一)

    我们依旧采用FastDeploy来部署应用深度学习模型到OK3588板卡上 进入主机Ubuntu的虚拟环境 conda activate ok3588 安装rknn-toolkit2(该工具不能在OK3588板卡上完成模型转换) git clone https://github.com/rockchip-linux/rknn-toolkit2 cd rknn-toolkit2 注意这里需要1.4的版本 git checkout v1.4.0 -f cd packages pip in

    2024年02月05日
    浏览(29)
  • c#实现OCR获取图片文字信息

    如果IronOcr没有,或者没有中文识别数据库,可以走Nuget  

    2024年02月11日
    浏览(75)
  • 基于JavaSwing+百度OCR开发的题库管理系统源码+数据库,能够将图片中的文字提取出来,保存题库中

    介绍 具备上传本地图片及截屏功能,并利用百度OCR技术,能够将图片中的文字提取出来,保存题库中,供以后查找。 技术方面,为制作exe可执行文件,该软件将JavaSwing,MybatisPlus,Spring三者进行集成, 并重绘Swing的UI组件库,为业界首次。由于Spring是为web服务而生,MybatisPlus需要

    2024年01月24日
    浏览(38)
  • 【ChatOCR】OCR+LLM定制化关键信息抽取(附开源大语言模型汇总整理)

    最近百度飞桨团队推出了一款基于文心大模型的通用图像关键信息抽取工具PP-ChatOCR。它结合了OCR文字识别和文心一言大语言模型,可以在多种场景下提取图像中的关键信息,效果非常惊艳。而传统的OCR识别技术的准确率容易受到多种因素影响,例如图像质量、字符布局、字体

    2024年02月05日
    浏览(36)
  • 免费开源的高精度OCR文本提取,支持 100 多种语言、自动文本定位和脚本检测,几行代码即可实现离线使用(附源码)

    免费开源的高精度OCR文本提取,支持 100 多种语言、自动文本定位和脚本检测,几行代码即可实现离线使用(附源码)。 要从图像、照片中提取文本吗?是否刚刚拍了讲义的照片并想将其转换为文本?那么您将需要一个可以通过 OCR(光学字符识别)识别文本的应用程序。 图

    2024年02月01日
    浏览(104)
  • python实现OCR

    python实现OCR 在Python中实现OCR(光学字符识别)通常需要使用第三方库,如 pytesseract 。以下是使用 pytesseract 进行OCR的基本步骤: 安装 pytesseract 和相关的OCR库,如 tesseract-ocr 。 使用 pytesseract 库的 image_to_string 函数来识别图片中的文本。 首先,你需要安装 pytesseract 和 tesseract

    2024年04月17日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包