在图像识别的文章发出后,有些朋友对内容比较感兴趣。但对于很多从没接触过类似内容的朋友来说,搭建一个类似的环境还是有点难度的(也就是一点)。
这篇文章,就讲讲怎么配置环境吧(主要就是下载、安装)。
要想做文字的识别,我们需要下载这么几个文件:
下载地址:https://github.com/UB-Mannheim/tesseract/wiki
从地址中我们可以看到,最新版已经出到5.1了。直接下载安装就行,需要注意的是下载之后记得添加全局变量。
悄悄告诉你,这个软件是谷歌出品,值得信赖哟!
下载地址:https://github.com/tesseract-ocr/tessdata
可以看到这里有很多训练好的数据集,各位根据自己的需要,下载合适自己的数据集就好。我使用的数据集如下图所示:
Python哪里下载,怎么安装我就不说了,网上内容很多。有Python的话,记得安装一个包:pytesseract
我使用的是Anaconda,也推荐大家使用,conda的包管理非常省心!
在安装好上面提到的文件之后,就可以进行文字信息识别了。我们来造点数据测试一下:
准备一张写着:“数据处理与分析这公众号真不错。”的图片来识别,发现识别效果还行。
通篇看下来的话,基本上就是下载、安装、配环境变量,真的超简单。做一个调包侠,是真的快乐!