使用Java做ORC图片识别

1. 下载训练库

下载地址:https://github.com/tesseract-ocr/tessdata

不用全部下载,中文识别下载那个chi_sim.traineddata即可。

2. 添加依赖

1
2
3
4
5
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>

3. 编写代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
public static String getTextByImage(String imgPath) throws TesseractException {
File imageFile = new File(imgPath);
if (!imageFile.exists()){
throw new RuntimeException("图片不存在");
}
Tesseract tesseract = new Tesseract();
// 设置训练库的位置,https://github.com/tesseract-ocr/tessdata
tesseract.setDatapath("D://OCR/tessdata");
// 设置识别语言为中文
tesseract.setLanguage("chi_sim");

String result = tesseract.doOCR(imageFile);
return result;
}

4. 测试

1
2
3
public static void main(String[] args) throws TesseractException {
System.out.println(getTextByImage("D://OCR/img/test.png"));
}

-------------本文结束感谢您的阅读-------------