摘要:002-ocr-tesseract-ocr
概述
从一张图片中识别出中文,通过python来实现
Tesseract的OCR引擎目前已作为开源项目发布在Google Project,其项目主页在这里查看https://github.com/tesseract-ocr,
它支持中文OCR,并提供了一个命令行工具。python中对应的包是pytesseract. 通过这个工具我们可以识别图片上的文字。
准备环境
开发环境如下:
1 | macosx |
安装tesseract 和 pytesseract
1 | # 安装tesseract |
中文字体下载安装
代码使用
要识别中文需要下载对应的训练集:https://github.com/tesseract-ocr/tessdata
下载”chi_sim.traineddata”,然后copy到训练数据集的存放路径,如:
/usr/local/Cellar/tesseract/4.1.1/share/tessdata
1 | # -*- coding: UTF-8 -*- |