使用Cloud Vision和Python进行强大的图像分析

最近,我已经构建了一个Web应用程序来管理用户的个人开支,其主要功能是扫描购物收据并提取数据以供进一步处理。Google Vision API是一款从照片中获取文字的绝佳工具,在本文中,我将使用Python指导完成开发过程。

从未听说过Google Cloud Vision?

它是一种API,允许开发人员通过提取的数据分析图像的内容。为此,Google利用在大型图像数据集上训练的机器学习模型,所有这些都可以通过单个API请求获得,API背后的引擎对图像进行分类,检测对象,人脸,并识别图像中的打印文字。

举个例子,让我们来介绍一下国外很受欢迎的Giphy。他们采用了API从GIF中提取字幕数据,从而显着改善了用户体验。

如何开始使用Google Cloud

首先注册Google Cloud,目前中国可以使用邮箱注册,然后根据提示获取秘钥。但是如果要更好体验需要代理服务器,之后就可以使用丰富的API功能。

如何将GOOGLE CLOUD VISION与PYTHON结合使用

首先,让我们从库中导入类。

from google.cloud import vision

from google.cloud.vision import types

如果需要处理,现在需要一个客户端实例,将使用文本识别功能。

client = vision.ImageAnnotatorClient()

如果不将凭据存储在环境变量中,则可以在此阶段将其直接添加到客户端。

client = vision.ImageAnnotatorClient.from_service_account_file('/path/to/apikey.json')

假设将要处理的图像存储在项目目录中的文件夹“images”中,让我们打开其中一个。

image_to_open = 'images/receipt.jpg' with open(image_to_open, 'rb') as image_file:content = image_file.read()

下一步是创建一个Vision对象,它允许您发送请求以继续进行文本识别。

image = vision.types.Image(content=content)text_response = client.text_detection(image=image)

基本步骤就差不多,看起来很复杂,但是真正上手之后就会发现功能强大且使用简单。

可以从Google Cloud Vision获得什么?

正如上面提到的,Google Cloud Vision不仅可以识别文本,还可以让发现人脸,地标,图像属性和网络连接。其实Google Cloud Vision还可以让我们找出关于图像的Web关联的内容。

应用Google Cloud Vision服务是无穷无尽。使用Python库,可以在任何基于语言的项目中使用它,无论是Web应用程序还是科学项目,它当然可以帮助我们对机器学习技术产生更深的兴趣。

Google文档提供了一些有关如何在实践中应用Vision API功能的好主意,并让我们可以了解有关机器学习的更多信息。特别建议查看有关如何构建高级图像搜索应用程序的指南。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190115A1ECPH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动