您现在的位置是：首页 > 工具

当前栏目

QT案例实战1 - 从零开始编写一个OCR工具软件 (4)引入tesseract

Qt 案例一个实战编写引入从零开始 OCR

2023-09-14 09:15:03 时间

一、概述

因为要实现OCR功能，自己实现不了，就要用第三方的库，经过筛选之后打算引入两种OCR识别引擎。一种是tesseract、一种是winrt的微软OCR。

引入两种是因为识别效果的问题，因为目的主要是识别一些基础场景，比如pdf、一些简单的图片的文字提取，首先只引入了tesseract，但是某些场景识别效果一般。后来又调研了一下其它的，比如easyocr，效果不错，但是识别慢，还是基于python+pytorch的，不太好办。后来看到win11自带的这个ocr，对于这种基础场景识别效果还不错。

再多说一句，网上有说法是tesseract过时了，感觉有失公允，tesseract官方提供的通用模型可能效果不是很好，但是毕竟提供了对于模型进行微调的方法，非常适合特定场景自定义训练。

下面说一说关于如何引入并进行测试。

二、引入tesseract

1、获得编译的库

既然要引入库那要么就下载源码自己编译，要么就找编译好的。这里懒得编译，所以使用vcpkg直接编译好的来使用，Vcpkg是微软团队在GitHub上的一个开源项目，它提供一系列简单的命令，自动下载源码然后编译成三方库，而且并不依赖于Windows注册表或Visual Studio。

不过vcpkg的网络很慢，如果想自己尝试可以在网上找找教程。

我把下载好的整个package都上传到了网盘，八百多兆。

链接：https://pan.baidu.com/s/1PxKLjj0x6LuBAF-y0Hy7KA 
提取码：oktf

下面是部分截图，文件夹很多，因为tesseract还依赖其它的一些包。

2、在项目中引用

在上面的图片中，可以看到这两个文件夹，有static的就是静态的库，另一个是share的库。

我们使用share版本的库，打开tesseract_x64-windows文件夹。

其中include就是我们的包含文件。bin、lib文件夹就是release需要的。debug下面自然就是debug的时候需要的。

3、修改CmakeLists.txt文件

（1）首先再项目文件夹下建立了一个叫lib的文件夹，再其下又建立了一个leptonica文件夹、一个tesseract文件夹。因为tesseract接收的是leptonica格式的图片所以要把leptonica引进来。

（2）leptonica文件夹下建立include和lib文件夹。

（3）tesseract文件夹下建立include、lib、tessdata文件夹。tessdata用于存放官方提供的模型。

（4）把相关对应文件都复制到项目内，lib文件夹下要放release和debug的两个lib。include文件夹下直接copy过来。

处理完上面的文件夹相关工作，然后编辑CmakeLists.txt，首先添加include。

include_directories(${CMAKE_SOURCE_DIR}/lib/leptonica/include)
include_directories(${CMAKE_SOURCE_DIR}/lib/tesseract/include)

然后引入lib，debug和release都引入，方便使用。

target_link_libraries(QtFFmpegApp2 PRIVATE debug ${CMAKE_SOURCE_DIR}/lib/leptonica/lib/leptonica-1.82.0d.lib optimized ${CMAKE_SOURCE_DIR}/lib/leptonica/lib/leptonica-1.82.0.lib)

target_link_libraries(QtFFmpegApp2 PRIVATE debug ${CMAKE_SOURCE_DIR}/lib/tesseract/lib/tesseract52d.lib optimized ${CMAKE_SOURCE_DIR}/lib/tesseract/lib/tesseract52.lib)

4、运行测试

项目运行之后会在同级文件夹下生成诸如下面名字的文件夹。我们需要把需要用到的dll都copy到里面（包括tesseract和leptonica依赖的dll，可以再vcpkg对应的库的tools文件夹下找到），debug对应debug、release对应release。

build-QtFFmpegApp2-Desktop_Qt_6_3_1_MSVC2019_64bit-Release

build-QtFFmpegApp2-Desktop_Qt_6_3_1_MSVC2019_64bit-Debug

然后写一小段代码进行测试。

#include "qdebug.h"
#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>

// 初始化tesseract，LSTM效果相对较好
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
if (api->Init("lib/tesseract/tessdata/", "chi_sim", tesseract::OcrEngineMode::OEM_LSTM_ONLY)) {

// 使用leptonica库打开图像
Pix *image = pixRead(_newFilepath.c_str());
api->SetImage(image);

// 最简单的api，直接识别并打印
char* outText = api->GetUTF8Text();
qDebug()<<"outText:"<<outText;

// 销毁使用过的对象
api->End();
delete api;
delete[] outText;
pixDestroy(&image);

三、下一篇

QT案例实战1 - 从零开始编写一个OCR工具软件 (5)引入微软OCRhttps://skydance.blog.csdn.net/article/details/127121788

猜你喜欢

【codeforces 782D】 Innokenty and a Football League
【SQL开发实战技巧】系列（四十三）：Oracle12C常用新特性☞转换函数的增强和不可见字段
Java实现字符串编辑距离
x64_dbg——类似ollydbg(OD)的支持64位的一款反编译软件，ODB仅支持32位
阿里云容器服务全面升级为 ACK Anywhere，让云的边界拓展至企业需要的每个场景
【学习干货】最新Android Kotlin入门教程指南，2023最新！
【Codeforces Round #422 (Div. 2) D】My pretty girl Noora
【优化模型】面试顺序模型
【二】2D测量 Metrology——add_metrology_object_line_measure()算子
【Android笔记41】使用Android实现一个简易版本的购物车小案例
rails4 中使用分页的方法
vue.js3:div上添加右键菜单(vue@3.2.37)
如何实现Github博客评论功能
java中long和Long的区别
CentOS8平台nginx日志的定时切分
图文详解: 操作系统之内存管理 ( 内存模型,虚拟内存,MMU, TLB,页面置换算法,分段等)...
【Techo大会】传统架构的云原生改造之路
MFC Windows 程序设计[五十]之电子时钟(附源码)

相关主题

【QT】QT线程
Qt视频播放器
QT（1）介绍
Qt+OSG
Qt：Qt Designer
Qt：Qt Widgets
Qt中的UDP通信
Qt：QTableWidget
Qt：QObject

zl程序教程