使用google cloud vision识别垂直文本_如何使用google cloud vision和unity来使用移动摄像头识别文本？_如何改进Google mobile vision API文本识别？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

留住老照片，谷歌用AI帮纽约时报讲了500万个故事

纸质老照片记录下了当时的珍贵时刻，其中的历史意义也更为重要，但纸质极容易损坏，人类该怎么保存它们，让它们恒久远永流传？

04

2018 最新机器学习 API 推荐清单，快给 APP 加点智能

本篇基于 2017 年的推荐清单做了一些改进——去除了一些不再进行维护的 API，并且更新了一些新的 API。主要覆盖如下方向：

03

您找到你想要的搜索结果了吗？

是的

没有找到

谷歌文本转语音系统更新可选择学习模型

据外媒报道，近日，谷歌更新了其云端文本转语音（Cloud Text-to-Speech）API。

00

从人脸识别到机器翻译：52个有用的机器学习和预测API

人工智能正在成为新一代技术变革的基础技术，但从头开始为自己的应用和业务开发人工智能程序既成本高昂，且往往很难达到自己想要的性能表现，但好在我们有大量现成可用的 API 可以使用。开发者可以通过这些 API 将其它公司提供的智能识别、媒体监测和定向广告等人工智能服务集成到自己的产品中。机器之心在 2015 年底就曾经编译过一篇介绍当前优质人工智能和机器学习 API 的文章《技术 | 50 个常用的人工智能和机器学习 API》，列举了 50 个较为常用的涉及到机器学习、推理预测、文本分析及归类、人脸识别、语言翻译等多个方面的 API。一年多过去了，好用的 API 也出现了一些新旧更迭，现在是时候对这篇文章进行更新了。

01

OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

据The information爆料称，OpenAI即将推出多模态模型GPT-vision。

02

Google 发布 Cloud AutoML 降低机器学习门槛，调参民工前景堪忧

翻译 | AI 科技大本营（rgznai100）参与 | 刘畅、林椿眄编辑 | 周翔、Donna 本周三，Google 发布了最新的 Cloud AutoML 技术，该技术能使企业开发者们通过 Google Cloud 平台自动创建机器学习模型。谷歌首先将发布 AutoML Vision，即用于建立机器视觉模型的工具，随后将陆续推出用于机器翻译和自然语言处理等的工具。 Cloud AutoML 将是开发者的利器，即便你不懂机器学习，也能训练出一个定制化的机器学习模型。具体来说，开发者只需要上传一组

04

Google 发布 Cloud AutoML 降低机器学习门槛，调参民工前景堪忧

本周三，Google 发布了最新的 Cloud AutoML 技术，该技术能使企业开发者们通过 Google Cloud 平台自动创建机器学习模型。谷歌首先将发布 AutoML Vision，即用于建立机器视觉模型的工具，随后将陆续推出用于机器翻译和自然语言处理等的工具。 Cloud AutoML 将是开发者的利器，即便你不懂机器学习，也能训练出一个定制化的机器学习模型。具体来说，开发者只需要上传一组图片，然后导入标签或者通过 App 创建，随后 Cloud AutoML 就会自动生成一个定制化的机器学

06

‍Java OCR技术全面解析：六大解决方案比较

在本篇博文中，我们深入探讨了六种主流的Java OCR（光学字符识别）技术解决方案，旨在为Java开发者提供全面的技术对比和实用指南。从开源神器Tesseract到云服务巨头Google Vision API，再到专业的OCR库如ABBYY，每种解决方案都将通过依赖引入、代码实例、GitHub上的数据集链接、应用场景对比以及优缺点分析进行详细介绍。无论是对于OCR新手还是经验丰富的开发大佬，本文都力求提供一份准确、易读、内容丰富的技术分享，确保每位读者都能找到满足其项目需求的最佳OCR解决方案。

01

i-am-a-bot：一款基于多个大语言模型的验证码系统安全评估工具

i-am-a-bot是一款基于多个大语言模型的验证码安全评估工具，该工具提供了一个使用了多模态大语言模型（LLM）的自动化解决方案，可以帮助广大研究人员测试各种类型验证码机制的安全性。

01

谷歌重磅：不用写代码也能建模调参，Cloud AutoML要实现全民玩AI

大数据文摘作品编译：钱天培、龙牧雪连发三条推特！今天凌晨时分，李飞飞通过一篇博客文章发布了谷歌最新AI产品——AutoML Vision，可以自动设计机器学习模型。我很荣幸地宣布AutoML Vision面世。无需精通机器学习，每个人都能用这款AI产品定制机器学习模型。这是“AI民主化”的重要进展！ ——李飞飞这个名为Cloud AutoML的宏大项目浮出水面，或标志谷歌发展的战略转型。一直以来面向机器学习人工智能开发者的Google Cloud，这次将服务对象转向了普罗大众。今天面世的AutoM

03

TensorFlow Lite，ML Kit 和 Flutter 移动深度学习：1~5

在本章中，我们将探索移动设备上深度学习的新兴途径。我们将简要讨论机器学习和深度学习的基本概念，并将介绍可用于将深度学习与 Android 和 iOS 集成的各种选项。本章还介绍了使用本机和基于云的学习方法进行深度学习项目的实现。

01

50多种适合机器学习和预测应用的API，你的选择是？（2018年版本）

对于做工程项目和搞科研的人来说，有现成的模块或工具使用是一件多么美妙的事情啊，无需访问源码或理解内部工作机制的细节即可完成相应的任务。常用的方法是调用一些API，即一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力。本文总结对于机器学习行业者有用的50多个API，主要涉及的领域如下：

01

人脸识别、情感分析，开发者必备50个机器学习API|值得收藏

该清单按照字母排序，对 API 的概述是基于对应官网所提供的信息整合而成。要是大家发现该清单中错过了某些当前流行的 API，可以在评论中告知。

03

50种机器学习和预测应用的API，你想要的全都有

翻译 | Drei 编辑 | Just 出品 | 人工智能头条（公众号ID：AI_Thinker） API 是一套用于构建软件程序的协议和工具。对于应用开发者而言，有了开放的 API，就可以直接调用其他公司做好的功能为我所用，这在很大程度上提升了工作效率。本文整理了以下四大类共 50 种 API，为你节省了寻找资源的时间。总之，你所需要的可能基本都在下面了：人脸和图像识别（Face Image Recognition）文本分析，自然语言处理，情感分析（Text Analysis, NLP, Senti

07

50种机器学习和预测应用的API，你想要的全都有

API 是一套用于构建软件程序的协议和工具。对于应用开发者而言，有了开放的 API，就可以直接调用其他公司做好的功能为我所用，这在很大程度上提升了工作效率。

02

52 个有用的机器学习与预测API

随着基于人工智能与机器学习的应用如雨后春笋般不断涌现，我们也看到有很多提供类似功能的 API 悄悄登上了舞台。 API 是用于构建软件应用的程序、协议以及工具的组合；本文是对2015 中这个列表的修正与完善，移除了部分被废弃的 API ；我们也添加了最近由 IBM、Google、Microsoft 这些大厂发布的 API 。所有的 API 可以根据应用场景进行分组：人脸与图片识别。文本分析，自然语言处理以及情感分析。语言翻译。预测以及其他的机器学习算法。在具体的每个分组内，我们根据首字母顺序排序；

50种机器学习和人脸识别API，收藏好！以后开发不用找啦

API 是一套用于构建软件程序的协议和工具。对于应用开发者而言，有了开放的 API，就可以直接调用其他公司做好的功能为我所用，这在很大程度上提升了工作效率。本文整理了以下四大类共 50 种 API，为你节省了寻找资源的时间。

04

从人脸识别到情感分析，50个机器学习实用API

API是一套用于构建应用软件程序的规范，协议和工具。在本文中，我们从2017年的清单中删除了停用的API，并利用新元素对其进行了更新。并且，所有的API被归类到以下几个领域：

01

使用图神经网络优化信息提取的流程概述

在这篇文章中，我们将介绍票据数字化的问题，即从纸制收据（如医疗发票、门票等）中以标签的形式提取必要和重要的信息。这些类型的模型在现实生活中非常有用，可以帮助用户，为了更好地理解数据，我们日常工作的很大一部分仍然是处理纸制收据（扫描件）。在自然语言处理领域，这项任务称为序列标记，因为我们以某种形式的预定义类标记每个输入实体，例如杂货店购物的正常收据，标签可以是 TOTAL_KEY、SUBTOTAL_KEY、COMPANY_NAME、COMPANY_ADDRESS、DATE、下图描述了这些工作的一般流程，将在接下来的部分中一一描述。

02

业界 | 李飞飞、李佳宣布发布Cloud AutoML：AI技术「飞入寻常百姓家」

选自Google Blog 作者：李飞飞、李佳机器之心编译参与：路雪、刘晓坤李飞飞一直倡导AI民主化，今日谷歌云发布Cloud AutoML，希望帮助ML/AI专业知识和能力有限的企业也能够使用AI技术构建定制化AI模型。目前已有一万多家企业使用Cloud AutoML。谷歌发布 Cloud AutoML，旨在帮助更多公司构建高质量定制化模型。李飞飞和李佳在相关博客中称：「Cloud AutoML 将帮助 AI 专家更加高产，不断拓展 AI 的新领域，帮助经验不足的工程师构建梦寐以求的强大 AI 系

05

从人脸识别到情感分析，这有50个机器学习实用API！

大数据文摘作品编译：大茜、Shan LIU、云舟还在为找不到机器学习的API而烦恼吗？本篇文章将介绍一个包含50+关于人脸和图像识别，文本分析，NLP，情感分析，语言翻译，机器学习和预测的API列表，快快收藏吧~ API是一套用于构建应用软件程序的规范，协议和工具。在本文中，我们从2017年的清单中删除了停用的API，并利用新元素对其进行了更新。并且，所有的API被归类到以下几个领域：人脸和图像识别文本分析，NLP，情感分析语言翻译机器学习和预测在每组应用中，列表中的元素按字母顺序排列。相

05

李飞飞和李佳：发布Cloud AutoML，让AI赋能每家企业！

谷歌全新发布Cloud AutoML，预计的语音、图像、NLP、翻译等系列服务中，首先发布的是AutoML Vision，任何人都能上传图片，然后让谷歌的系统自动为他们创建机器学习模型。李飞飞在Twitter连发两条信息说：“在短短的几个月里，将尖端技术转化为数百万的产品，这是一个相当鼓舞人心的旅程！我们希望AutoML Vision是我们客户的第一选择。” 📷 📷 李佳在朋友圈中称：今天我们 CloudAI 团队推出了 Cloud AutoML, 自动生成 ML 模型的技术。这是飞飞和我加入谷歌云以来的一

09

Quant值得拥有的AutoML框架

自动机器学习，也称为 AutoML，是将机器学习应用于实际问题的端到端过程自动化的过程。典型的机器学习过程包括几个步骤，包括数据的摄取和预处理、特征工程、模型训练和部署。在传统的机器学习中，Pipeline中的每一步都是由人来监控和执行的。自动机器学习工具（automatic machine learning）旨在自动化这些机器学习的一个或多个阶段，使非专家更容易建立机器学习模型，同时消除重复性任务，使经验丰富的机器学习工程师能够更快地建立更好的模型。

05

谷歌新突破：自然语言与翻译加入AutoML，Contact Center AI和TPU 3.0发布

今天在旧金山举行的谷歌Cloud Next大会上，谷歌迎来了全新的突破，发布了一系列关于人工智能的公告。亮点主要包括：AutoML增添了自然语言处理（AutoML Natural Language）和翻译（AutoML Translate）；Contact Center AI和TPU 3.0。

01

Google 发布 AutoML Vision，全自动训练 AI 无需写代码

关键时刻，第一时间送达！ 📷 还记得去年5月，谷歌大脑团队对外宣布推出AutoML系统，让人工智能自动编写机器学习程序，试图使机器学习模型的设计变得更为简单。短短三个月后，AutoML在一次图像内容分类的测试中，以82%的准确率击败了编写AutoML的研究人员。 1月17日，基于自身云平台，谷歌又推出了机器学习系统Google Cloud AutoML，为更多正在尝试搭建机器学习模型的开发者、分析人员、企业群体，降低了使用人工智能相关工具和框架的门槛。“目前，全球只有少数企业在ML和AI的研发上投入足够的人

07

想快速部署机器学习项目？来看看几大主流机器学习服务平台对比吧

日前，kdnuggets 上的一篇文章对比了三大公司（谷歌、微软和亚马逊）提供的机器学习服务平台，对于想要启动机器学习项目的公司或是数据科学新手来说，提供了非常多的指导和建议。 AI 研习社将原文编译整理如下：对于大多数企业来说，机器学习就像航空航天一样遥远，听起来既昂贵，还需要高科技人才。从某种角度来说，如果你想建立一个像 Netflix 一样好的推荐系统，那确实是昂贵且困难。但是，目前这个复杂的领域有一个趋势：一切皆服务（everything-as-a-service)——无需太多投资，即可快速启动机

学界 | 把人识别成狗？机器还是太容易被骗

AI 科技评论按：日前谷歌大脑负责人 Jeff Dean 在推特上转了一篇 Anish Athalye 的推文，推文内容如下：防御对抗样本仍然是一个尚未解决的问题，三天前公布的 ICLR 接收论文里

这一次，MIT的科学家让谷歌AI把步枪误认成直升机

安妮编译整理量子位出品 | 公众号 QbitAI 这是什么？熟悉枪械的盆友可能一眼就认出这是步枪，即使对枪种类不熟悉的同学也能认出这最可能是枪。但……这道题对谷歌Cloud Vision A

05

别慌，谷歌说AutoML无意取代工程师，AI人才缺口仍然巨大

李根发自国贸大酒店量子位报道 | 公众号 QbitAI Google云的工程师们正让其他（和未来的）AI工程师们瑟瑟发抖？ 1月18日，Cloud AutoML发布，量子位的评论区高赞评论说

重磅！李飞飞离职谷歌，前CMU计算机学院院长接管谷歌云AI

接替她职位的人选，则是几周前突然宣布即将离职的CMU计算机科学学院院长Andre Moore，并且后者是全职加入谷歌云。

03

谷歌发布端到端AI平台，还有用于视频和表格的AutoML、文档理解API等多款工具

谷歌又有了大动作。在大洋彼岸的谷歌Cloud Next conference大会上，谷歌一口气发布了多款AI新品和工具，主要包括：

04

现场直击 | 李飞飞首度亮相谷歌云大会：发布全新API，解读AI民主化

机器之心现场报道记者：CZ 当地时间 3 月 8-10 日，Google Cloud NEXT '17 大会在美国旧金山举行，机器之心作为受邀媒体进行了现场报道。大会首日，谷歌云高级副总裁 Diane Greene、谷歌 CEO Sundar Pichai、Alphabet 执行主席 Eric Schmidt 、谷歌云机器学习与人工智能首席科学家李飞飞分别做了 Keynote 演讲。去年 11 月份李飞飞加入谷歌引起了业内极大关注，此番首次亮相谷歌云大会自然也是大会首日的重头戏。在 Keynote 演

07

【李飞飞演讲全文】谷歌的开源与生态：谷歌云正将AI民主化

【新智元导读】李飞飞在妇女节这天完成了她加入谷歌云后的首秀——在谷歌 Cloud Next 17上发表主旨演讲。她在会上发布了谷歌云面向机器学习和人工智能的一系列新API 以及收购机器学习竞赛平台Kaggle的消息。主旨演讲中，她提到了自己加入谷歌云的初衷，强调了“AI 民主化”概念。新智元带来独家文字实录和PPT。美国当地时间3月8日，谷歌 Cloud Next 17 大会举行。去年年底加入谷歌云的李飞飞教授首次亮相，以谷歌云负责人的身份，发布了谷歌云的一系列新API以及收购机器学习竞赛平台Kaggl

07

谷歌发布端到端AI平台，还有用于视频和表格的AutoML、文档理解API等多款工具

谷歌又有了大动作。在大洋彼岸的谷歌Cloud Next conference大会上，谷歌一口气发布了多款AI新品和工具，主要包括：

03

李飞飞再次告别！卸任斯坦福AI Lab负责人后，她只做一件事！

斯坦福人工智能实验室“SAIL”官方推特宣布：李飞飞正式卸任SAIL主任一职，由斯坦福大学计算机科学和语言学教授Christopher Manning接任。而李飞飞将继续担任由她主导的以人为中心的AI计划“HAI”联合创始人。

03

加上一个奇虎，去掉一个中搜

搜索引擎的战火才刚拉开序幕，而普通网民将会在这场无休止的战役中取得实惠。

07

图像识别的工作原理是什么？商业上如何使用它？

图像识别市场估计将从2016年的159.5亿美元增长到2021年的389.2亿美元，在2016年至2021年之间的复合年增长率为19.5％。机器学习和高带宽数据服务的使用进步推动了这项技术的发展。。电子商务，汽车，医疗保健和游戏等不同领域的公司正在迅速采用图像识别。根据MarketsandMarkets的报告，图像识别市场分为硬件，软件和服务。以智能手机和扫描仪为主的硬件部分可以在图像识别市场的增长中发挥巨大作用。越来越需要具有创新技术（例如监控摄像头和面部识别）的安全应用程序和产品。

02

一文告诉你，如何使用Python构建一个“谷歌搜索”系统 | 内附代码

在这篇文章中，我将向您展示如何使用Python构建自己的答案查找系统。基本上，这种自动化可以从图片中找到多项选择题的答案。

01

Gemini Pro 模型的初学者指南

上个月，谷歌宣布推出 Gemini 最新、最强大的人工智能模型，旨在与 OpenAI 的 GPT 正面交锋。Gemini 在构建时考虑到了多模态，这意味着它能够理解文本、图像、视频、音频和代码。

01

零基础可上手 | 手把手教你用Cloud AutoML做毒蜘蛛分类器

近日，一名叫Matt Fraser的小哥用Cloud AutoML制作了一个分类器，能识别分类澳大利亚的各种毒蜘蛛。

06

业界 | 谷歌开源TensorFlow Object Detection API物体识别系统

选自Google Open Source 作者：Jonathan Huang 机器之心编译参与：黄小天、李泽南近日，谷歌在其开源博客上发表了一篇名为《Supercharge your Computer Vision models with the TensorFlow Object Detection API》的文章，通过 TensorFlow Object Detection API 将谷歌内部使用的物体识别系统（2016 年 10 月，该系统在 COCO 识别挑战中名列第一）开源给更大的社区，帮助打

08

还在做着学AI拿高薪的美梦？谷歌新推出神器一巴掌打醒你

整个操作过程，从导入数据到标记和训练模型，都只需要用鼠标拖放界面即可完成。人工智能和深度学习首席科学家李飞飞本周在某个新闻发布会上表示，人工智能和机器学习仍然是一个进入门槛高的领域，需要专业知识和资源，很少有公司自己能雇佣起机器学习和数据科学家。兵贵神速，在今天的凌晨，谷歌就发布了用机器学习来训练机器学习的神器：Cloud AutoML Vision。 AI训练AI 谷歌的Cloud AutoML到底是什么？ Cloud AutoML是一套机器学习产品，其背后的逻辑是用AI制作AI。它能够使具有有限机

00

盘点 | TOP49人工智能常用 API

【新智元导读】作者Geethika Bhavya Peddibhotla列出了49个人工智能领域常用的API，包括机器学习和预测、人脸和图像识别、文本和情感分析以及翻译。下文只是列举式陈述，有其他推荐

09

CV Code | 计算机视觉开源周报20191002期

涵盖的方向包括域适应、消除偏差网络训练、视觉注意力模型、机器人动作搜索、机器人抓取、自动驾驶、神经架构搜索、文本识别、视觉搜索等。

02

推出 TF Lite Task Library 接口，简化 ML移动端开发流程

作者 | Lu Wang、Chen Cen、Arun Venkatesan 和 Khanh LeViet

04

Salesforce通过Einstein Vision for Social Studio为营销人员提供基于AI的图像识别

社交媒体已经从基于文字分享逐步转化为视觉分享媒体。因为可即时从任何设备上传图片到社交媒体，人们在社交媒体上分享的照片比以往任何时候都要多。根据德勤发布的数据， 2016年有2.5万亿张照片被分享或存储在网上。可以肯定地说，这个数字还将不断增长。

03

1/10体量达到SOTA！谷歌发布5B参数视觉语言模型PaLI-3，更小更快却更强

最近，堪称改变游戏规则的视觉语言模型（VLM）PaLI-3问世，引得大量科研人员关注。

06

教程 | 如何使用谷歌Mobile Vision API 开发手机应用

机器之心原创参与：QW、李亚洲一年一度的谷歌开发者大会 Google I/O 昨日在山景城开幕，在首日的 Keynote 中，谷歌宣布了一系列新的硬件、应用、基础研究等。而在下午面向开发者的 se

05

PaLI-3：5B参数视觉语言模型，1/10体量达到SOTA！谷歌发布

最近，堪称改变游戏规则的视觉语言模型（VLM）PaLI-3问世，引得大量科研人员关注。

02

IBM联合Salesforce 要搞死微软占领AI

T客汇官网：tikehui.com 撰文张珅健 IBM、Salesforce宣布要强强联合，推出Salesforce的Einstein平台，将微软赶出IBM，占领AI市场。据悉，随着合作的进行，

06

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭