最近在准备一个爬虫项目,准备阶段了解到一个文字识别工具,用在验证码方面很方便。 现在主力开发机是mac,本文流程都是基于mac。
作为文字识别工具,需要安装识别的语言库。
下载需要的语言之后,放到/usr/local/Cellar/tesseract/3.05.01/share/tessdata
路径下。
常用的如下:
库名 | 语言 |
---|---|
chi_sim.traineddata | 中文 |
chi_sim_vert.traineddata | 中文精简集 |
eng.traineddata | 英文 |
解释:
字符训练是一个很重要,也很复杂的话题。以后深入学习了单开话题进行补充。
安装好tesseract之后就可以在Python中通过库文件很方便的把这个功能做到程序中了。
pip install pytesseract
不多说。831524628903_.pic.jpg
891524629631_.pic.jpg
可见,英文识别还可以,中文适应度不是很高。对于左右结构的字识别能力较差。