【java】opencv + Tesseract（tess4j）实现图片处理验证码识别-Toy模板网

这篇具有很好参考价值的文章主要介绍了【java】opencv + Tesseract（tess4j）实现图片处理验证码识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

2022/12/27 有的小伙伴说maven导入不了依赖，加了一种方法，百分百解决。
2022/12/28 写了半天，想去论坛放松休息下，结果看到别人已经有成品了，难受啊马飞，晚点看情况要不要写个搭建使用方法（我猜没人看，估计也不用写了，就当自己做个记录）

2023/3/24 更新了一键部署验证码识别！识别率更高，且不用自己训练啦~ 点这里直达
2023/3/24 更新了一键部署验证码识别！识别率更高，且不用自己训练啦~ 点这里直达
2023/3/24 更新了一键部署验证码识别！识别率更高，且不用自己训练啦~ 点这里直达
重要的事情说三遍！

1.opencv for java 环境搭建和测试

1.到OpenCV官网下载你需要的版本，运行安装，记住安装目录。
2.打开上一步安装的位置，依次打开如下图位置，复制opencv-{version}.jar、x64包下对应的dll到项目里，放在同级

2022/12/28 更新，添加依赖的方式，如下 3.1
3.1. ①项目上点右键，点击 open module settings

② 按图中顺序点，点完加号选jars 那个选项，然后找到你opencv-version.jar 在的地方，点右下apply 就行了

3.2. （不建议，用上边步骤简单）在maven里添加opencv依赖（位置看清楚、版本号改成自己下载的版本，别傻乎乎复制）

<dependency>
    <groupId>org</groupId>
    <artifactId>opencv</artifactId>
    <scope>system</scope>
    <systemPath>${project.basedir}\src\main\resources\lib\opencv\opencv-460.jar</systemPath>
</dependency>

测试代码（记得改链接库地址，别复制）

    //先静态代码块加载opencv库链接文件和动态库
    static {
        // 解决awt报错问题
        System.setProperty("java.awt.headless", "false");
        // 加载动态库
        URL url = ClassLoader.getSystemResource("lib/opencv/opencv_java460.dll");
        System.load(url.getPath());
    }

    /**
     * 高斯滤波
     */
    public static void GaussianBlur(String path, String resultPath) {
        // 加载时灰度
        Mat src = Imgcodecs.imread(path);
        Mat dst = src.clone();
        Imgproc.GaussianBlur(src, dst, new Size(9, 9), 0, 0, Core.BORDER_DEFAULT);
        imwrite(resultPath, dst);
    }

以上准备工作做完就可以开始对图片进行处理了，包括二值化、灰度化、高斯滤波、降噪等都可实现，此处不再列举事例

2. Tesseract 识别准备工作、环境配置、模型训练

介绍

Tesseract-OCR支持中文识别，并且开源和提供全套的训练工具，是快速低成本开发的首选。而Tess4j则是Tesseract在Java PC上的应用。在英文和数字识别中性能还是不错的，但是在中文识别中，无论速度还是识别率还是较弱，建议有条件的话，针对场景进行训练，会获得较好结果。

先在maven添加依赖

        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>4.3.1</version>
        </dependency>

2.1 使用官方训练集（省事，但是准确率低）

https://github.com/tesseract-ocr/tessdata 去官方git下载需要的训练集，（如：eng.traineddata 是英文字符集）
下载完成即可开始测试，测试代码

public class test {
    public static void main(String[] args) throws Exception {
    	// 需要识别的图片
        String resolve = "D:\\Process.jpg";
        // 训练集所在的文件夹，不需要精确到文件名
        String dataPath = "C:\\Users\\me\\Downloads";
        System.out.println(getImgCode(resolve, dataPath));
    }

    public static String getImgCode(String path, String dataPath) {
        try {
            // 指定识别图片路径
            File imageFile = new File(path);
            BufferedImage img = ImageIO.read(imageFile);
            Tesseract tessInst = new Tesseract();
            tessInst.setDatapath(dataPath);
            tessInst.setLanguage("eng");
            String result = tessInst.doOCR(img);
            System.out.println("result:--->" + result);
            return result;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return "";
    }
 }

对于整齐无干扰的图片识别效果可以，但是一旦有干扰或者不规整，识别结果都一言难尽。因此，我们需要自己训练适合自己的集合来使用。

2.2 自己使用tesseract 训练

2.2.1 准备工作

先点这里去官网下载jTessBoxEditor ，安装，记住自己的安装目录。
打开我的电脑右键-> 环境变量->系统环境变量，在path变量处双击，新增一行，值为上一步安装的目录位置，如：D:\Tesseract_OCR。再返回新增变量，名字：TESSDATA_PREFIX，值：{你的安装目录}\tessdata
在控制台输入 tesseract -v 即可查看是否配置成功

2.2.2 使用

Merge样本文件

打开第一步的安装目录，打开jTessBoxEditorFX.jar，工具栏依次打开【Tools】>【Merge TIFF】，如图。打开你的训练图片所在文件夹，
将样本文件全部选上。这里是没有界面化的提示的，选中后，点击【打开】，立马就是输入合成后的文件名界面，输入文件名，如：num.font.exp0.tif。点击【保存】，文件名一定要注意格式，具体如下：
【格式】：[lang].[fontname].exp[num].tif
【说明】：lang为语言名称，fontname为字体名称，num为序号；在tesseract中，一定要注意格式

生成BOX文件

打开 cmd 并切换至上一步tif所在目录。输入下面命令，生成文件名为：num.font.exp0.box 的box文件。注意，一定要生成在上一步tif同目录，方便后续操作

tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox

【语法】：tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
【语法】：lang为语言名称，fontname为字体名称，num为序号；在tesseract中，一定要注意格式

定义配置文件

在如上目录，新建font_properties.txt，删除后缀。用notepad++ 或者记事本编辑，写入内容：

 font 0 0 0 0 0

【语法】：<fontname> <italic> <bold> <fixed> <serif> <fraktur> 
【语法】：fontname为字体名称(上步命名的格式中定义好的，保持同步，不要输入错)，italic为斜体，bold为黑体字，
fixed为默认字体，serif为衬线字体，fraktur德文黑字体，
1和0代表有和无，精细区分时可使用

字符矫正

打开 jTessBoxEditor>【BOX Editor】> 【Open】，打开num.font.exp0.tif；矫正【Char】上的字符
如图所示，如果有没识别出来的字符，点击菜单栏 —> insert 回车。然后点箭头位置，选中新增字符的框。点击红框位置，调整到该字符对应位置即可，点击菜单栏 ->save。即可自动覆盖之前的box文件。如有多个box文件，可点击下方的换页符，分别处理。处理结束记得点击保存。

执行批处理文件，生成训练集

【注意】：执行该批处理文件前，先要目录下创建font_properties文件，也就是上边定义配置文件那步
在目标目录下，新建一个txt文件，复制下方代码，重命名为 do.bat

echo Run Tesseract for Training.. 
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train 
 
echo Compute the Character Set.. 
unicharset_extractor.exe num.font.exp0.box 
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 


echo Clustering.. 
cntraining.exe num.font.exp0.tr 

echo Rename Files.. 
rename normproto num.normproto 
rename inttemp num.inttemp 
rename pffmtable num.pffmtable 
rename shapetable num.shapetable  

echo Create Tessdata.. 
combine_tessdata.exe num. 

echo. & pause

记得把bat文件中tif文件名、box文件名改成自己的，如图
把生成的 .traineddata 后缀文件，复制到 Tesseract-OCR 安装目录下的 tessdata 文件夹
测试一下，cmd进入测试图片路径，输入如下命令

格式：tesseract {需要识别的图片}  {输出文本} -l {训练集名称}

tesseract test1.jpg result -l num

运行结果：
可以看到，经过简单训练后已经可以识别出需要的结果了。如果这个训练的集合够大，那准确率肯定会很高。文章来源地址https://www.toymoban.com/news/detail-479326.html

到了这里，关于【java】opencv + Tesseract（tess4j）实现图片处理验证码识别的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

【java】opencv + Tesseract（tess4j）实现图片处理验证码识别

1.opencv for java 环境搭建和测试

2. Tesseract 识别准备工作、环境配置、模型训练

介绍

先在maven添加依赖

2.1 使用官方训练集（省事，但是准确率低）

2.2 自己使用tesseract 训练

2.2.1 准备工作

2.2.2 使用

Merge样本文件

生成BOX文件

定义配置文件

字符矫正

执行批处理文件，生成训练集

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

【java】opencv + Tesseract（tess4j） 实现图片处理验证码识别

1.opencv for java 环境搭建和测试

2. Tesseract 识别准备工作、环境配置、模型训练

介绍

先在maven添加依赖

2.1 使用官方训练集（省事，但是准确率低）

2.2 自己使用tesseract 训练

2.2.1 准备工作

2.2.2 使用

Merge样本文件

生成BOX文件

定义配置文件

字符矫正

执行批处理文件，生成训练集

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

【java】opencv + Tesseract（tess4j）实现图片处理验证码识别