zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

OCR识别,tesseract模块安装

识别安装模块 OCR Tesseract
2023-09-27 14:26:27 时间

下载

https://digi.bib.uni-mannheim.de/tesseract/

github地址:https://github.com/UB-Mannheim/tesseract

下载地址截图

在这里插入图片描述

安装

双击程序运行

一般直接点默认即可

  • 注意语言的添加和路径的更改

注意这一步可以选择自己语言,这里勾选简体中文
(这里不选的话可以点击上面github网址,在里面进行下载并放在相应的路径即可)

在这里插入图片描述
在这里插入图片描述
更改安装路径

在这里插入图片描述

设置环境变量

系统变量中找到path,点击编辑,里面加入刚刚安装的路径
在这里插入图片描述
在这里插入图片描述

检测安装效果

在cmd中输入tesseract -v检测是否安装成功

在这里插入图片描述
在cmd中输入tesseract --list-langs查看安装的语言

在这里插入图片描述

小案例说明

命令行实现

命令行输入 tesseract test.png result -l chi_sim

其中-l chi_sim代表要识别中文

在这里插入图片描述

python代码实现

先在对应的环境下安装包

pip install pytesseract

在这里插入图片描述
安装完之后找到安装环境目录下面的 pytesseract.py 文件
我这边直接在pycharm中查找更改,点击External Libraries->site-pactages->pytesseract->pysseract.pu
在这里插入图片描述
在这里插入图片描述

代码

import pytesseract
from PIL import Image


def demo():
    # 打开要识别的图片
    image = Image.open('test.png')
    # 调用image_to_string方法进行识别,
    # 传入要识别的图片,lang='chi_sim'是设置为中文识别
    text = pytesseract.image_to_string(image, lang='chi_sim')

    # 输入所识别的文字
    print(text)


if __name__ == '__main__':
    demo()



结果

在这里插入图片描述

在py中竟然识别错误,cmd命令识别正确Σ(⊙▽⊙"a