Python网络数据采集之图像识别与文字处理|第10天

图像识别与文字处理;

使用Pillow库和Tesseract

图像识别与文字处理

将图像翻译成文字一般被称为光学文字识别(Optical Character RecognitionOCR)。可以实现 OCR 的底层库并不多,目前很多库都是使用共同的几个底层 OCR 库,或者是在上面进行定制。

OCR库概述

Python常用的OCR库有两个:PillowTesseract。每个库都可以从它们的网站上下载并安装(http://pillow.readthedocs.org/installation.htmlhttps://pypi.python.org/pypi/pytesseract),或者用第三方管理器(像 pip)通过“pillow”“pytesseract”进行安装。

Pillow

Pillow 是从 Python 2.x版本的 Python图像库(Python Imaging LibraryPIL)分出来的,支持Python 3.x版本。和PIL一样,Pillow也可以轻松地导入代码,并通过大量的过滤、修饰甚至像素级的变换操作处理图片:

from PIL import Image,ImageFilter

kitten = Image.open("demo.jpg")#打开图片
blurryKitten = kitten.filter(Imagefilter.GaussianBlur)
blurryKitten.save("demo_two.jpg")#另存为
blurryKitten.show()

Tesseract

Tesseract 是目前公认最优秀、最精确的开源 OCR 系统。Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何Unicode字符。

Tesseract 是一个 Python的命令行工具,不是通过 import语句导入的库。安装之后,要用 tesseract 命令在Python的外面运行。

安装 Tesseract

Windows:点击下载安装

Linux:sudo apt-get tessertact-ocr

Mac: brew install tesseract;也可以下载源码安装

NumPy

NumPy 是一个非常强大的库,具有大量线性代数 以及大规模科学计算的方法。因为NumPy可以用数学方法把图片表示成巨大的像素数组,所以它可以流畅地配合 Tesseract 完成任务。

NumPy 可以通过第三方包管理器(比如 pip)来安装:pip install numpy

处理格式规范的文字

例如通过运行Tesseract,读取文件并把结果写到一个文本文件中:

1

tesseract text.tif textoutput | cat test.txt

Tesseract 最大的缺点是对渐变背景色的处理。利用Pillow 库,我们可以创建一个阈值过滤器来去掉渐变的背景色,只把文字留下来,从而让图片更加清晰,便于 Tesseract 读取:

from PIL import Image
import subprocess
def cleanFile(filePath, newFilePath): 
    image = Image.open(filePath)
    # 对图片进行阈值过滤,然后保存
    image = image.point(lambda x: 0 if x<143 else 255)
    image.save(newFilePath)
    # 调用系统的tesseract命令对图片进行OCR识别 
    subprocess.call(["tesseract", newFilePath, "output"])
    # 打开文件读取结果
    outputFile = open("output.txt", 'r') 
    print(outputFile.read())
    outputFile.close()

cleanFile("text_2.jpg", "text_2_clean.png")

在提交给 Tesseract 处理之前,那些带标题的、带有大片空白的图片,或者有其他问题的图 片,都应该做预处理。

今天的内容没有特别难,我写的比较简单,爬取网络的图片和验证码识别还没写,先从简单的消化。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏wym

opencv下imread函数返回值

openCV的imread()函数和imwrite()函数能支持各种静态图像文件格式。

4082
来自专栏友弟技术工作室

Django实现验证码

Django实现验证码 背景知识 1. 验证码的作用 防恶意破解密码:防止,使用程序或机器人恶意去试密码.为了提高用户的体验,用户输入错误以后,才会要求输入验证...

73911
来自专栏张善友的专栏

开源OCR引擎Tesseract

知名的开源OCR引擎Tesseract 3.0版本日前发布,可以在项目网站下载:http://code.google.com/p/tesseract-ocr, ...

1K10
来自专栏Google Dart

Flutter 构建完整应用手册-图片 顶

显示图像是大多数移动应用程序的基础。 Flutter提供Image小部件以显示不同类型的图像。

2082
来自专栏WOLFRAM

可视化:标签、缩放和排除

2094
来自专栏aCloudDeveloper

Mobility Model and Routing Model about the ONE

ONE主要的功能是节点的移动,节点间的相遇情况,路由情况以及消息的处理机制。下面简要介绍下目前ONE自带的六种移动模型和六种路由模型。 Mobility Mod...

1929
来自专栏一棹烟波

CUDA与OpenGL互操作

当处理较大数据量的时候,往往会用GPU进行运算,比如OpenGL或者CUDA。在实际的操作中,往往CUDA实现并行计算会比OpenGL更加方便,而OpenGL在...

29810
来自专栏烂笔头

使用captcha模块生成图形验证码

目录[-] captcha模块是专门用于生成图形验证码和语音验证码的Python三方库。图形验证码支持数字和英文单词。 安装 安装 可以直接使用 pip 安...

8775
来自专栏生信小驿站

R语言之可视化②点图

第一步:准备数据,使用的数据包括三列,len长度,supp是分类变量,dose是0.5mg,1mg和2mg三个变量。

1794
来自专栏计算机视觉及音视频工程

YVU格式Y分量存储为灰度

 Image为Android 5.0以上提供的类,用于保存YUV420格式的集合。

2576

扫码关注云+社区

领取腾讯云代金券