安装

通过homebrew安装到本地/usr/local/Cellar #reference-homebrew

brew install tesseract

直接识别

尝试识别如下图片：

执行tesseract <%path_to_pic> stdout后得到。

可以看到英文和数字的识别正确率很高，中文识别这么不靠谱？显然不是，不同语言的文字识别机制可能不一样。Google后发现需要指定语言后识别。由于我们的目标是中文识别，必须解决语言包问题。当然可以自行选择自己愿意安装的语言包，但最方便的是支持所有available的语言包。重新执行brew install tesseract --all-languages 安装所有语言包。

#reference-Chinese OCR #reference-利用Tesseract图片文字识别初探 #reference-ocr markdown

现在我们执行tesseract --list-langs，可以看到

$ tesseract --list-langs List of available languages (107): ... chi_sim chi_tra ...

简繁体的中文识别目前都已经支持。由于是大陆环境，我们将主要是用简体中文语言包进行识别。

中文识别

再次通过语言包尝试识别，执行tesseract <%path_to_pic> stdout -l chi_sim

显然，准确率大大提高。虽然如此，可用性还是不足以支撑生产环境的需求。

分块后中文识别

会不会因为单词识别文本太多，导致识别不够准确呢？毕竟即使是人，当看到一大块文本的时候也感到头晕目眩。我们把原文本一分为三后，再次识别。

显然准确率有所提高。虽然也还是无法使用:(

如何分块

那么我们应该如何对一张图片中的文本作分块呢？简单来说，就是利用opencv，看出来白色的色块然后定位做文字识别。

#后续探索

后续可以进行探索的方向：

OCR 中文识别用哪种软件识别率比较高？
image++api
如何更合适地对图片的文本区域分块
根据图片直接判断语言

原文发布于：文字识别初探

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

文字识别初探.md

文字识别初探.md

安装

直接识别

中文识别

分块后中文识别

如何分块

Files

文字识别初探.md

Latest commit

History

文字识别初探.md

File metadata and controls

安装

直接识别

中文识别

分块后中文识别

如何分块