python 使用tesseract进行图片识别
作者: / 2019-08-07 / 浏览次数:

我的python为3.7

1.需要安装二个模块,

pil 直接使用 pip install pil 会报错 使用 pip install pillow 即可安装pil

第二个直接 pip install py凯发k8国际下载tesseract

2安装好了模块还需要下载 tesseract-ocr

下载网址:https://github.com/ub-mannheim/tesseract/wiki

选择自己的版本下载,下载之后直接安装即可。注意要记住安装的位置,等下需要用到

修改pytesseract.py 文件里面的指向路径

打开方式可以在pycharm 输入import pytesseract.pytesseract 然后按住ctrl键鼠标对着pytesseract右键点击进去

 

1 from io import bytesio
2 pandas_installed = find_loader is not none
3 if pandas_installed:
4 import pandas as pd
6 # change this if tesseract is not in your path, or is named differently
7 tesseract_cmd = r'c:\program files	esseract-ocr	esseract.exe'
8 rgb_mode = 'rgb'

 

其中tesseract_cmd是我已经修改了的地址,tesseract.exe在刚刚安装位置里面,将这里设置好了运行就不会报错

 

 

 

pytesseract有很多语言库,默认的有英文,如果需要中文要去下载对应的语言包:
网址:https://github.com/tesseract-ocr/tessdata
其中的chi_sim.traineddata为简体中文的语言包,将语言包放置到安装路径的tessdata目录下即可。
如果需要使用语言包使用lang=来指定对应的语言包。默认是英文的。






chi_sim.traineddata的识别率不高,如果需要针对性的文字可以使用训练模型生成适合自己的语言包

 

【某某业务】网站建设、网站设计、服务器空间租售、网站维护、网站托管、网站优化、百度推广、自媒体营销、微信公众号
如有意向---联系我们
热门栏目
热门资讯

网站建设 网站托管 成功案例 新闻动态 关于我们 联系我们 服务器空间 加盟合作 网站优化

备案号: 

公司地址:江苏省南京市玄武区玄武湖 咨询QQ:9490489 手机: 电话: