谷歌*识别*文字_谷歌图片识别_谷歌语音识别 - 腾讯云开发者社区

一个月前，谷歌宣布在源于Magenta项目的文字转语音（Text-to-Speech，简称TTS）技术上取得代际突破，接着该公司又对其语音转文字（Speech-to-Text，简称STT）API云服务进行了重大升级。更新后的服务利用语音转录的深度学习模型，根据特定用例量身定制：短语音命令、打电话或视频，在所有其他上下文中都有一个默认模型。如今，升级后的服务可以处理120种语言以及不同模型可用性和功能级别的变体。商业应用范围包括电话会议、呼叫中心和视频转录。转录的准确性在有多个扬声器和明显背景噪音的情形下有了

您找到你想要的搜索结果了吗？

是的

没有找到

Voicera获1450万美元融资，智能语音真的前途无限吗？

机器学习领域的突破性进展(附视频中字)

机器学习的发展涉及到各个方面，从语音识别到智能回复。但这些系统中的“智能”实际上是如何工作的呢？还存在什么主要挑战？在本次讲座中将一一解答。 Google I/O 是由Google举行的网络开发者年会，Google I/O 2016 中围绕机器学习领域的突破性进展进行了探讨。视频内容 CDA字幕组对该视频进行了汉化，附有中文字幕的视频如下：大家好，欢迎来到讲座：关于机器学习的突破性进展。我们探讨了谷歌对于 AI 的长期愿景，以及过去十年对机器学习的研究。这是十分重要的，因为所有用户都期待着奇迹发生。

010

业界 | 深度学习也能实现「鸡尾酒会效应」：谷歌提出新型音频-视觉语音分离模型

选自Google Research Blog 作者：Inbar Mosseri等机器之心编译在嘈杂的环境中，人们非常善于把注意力集中在某个特定的人身上，在心理上「屏蔽」其他所有声音。这种能力被称为「鸡尾酒会效应」，是我们人类与生俱来的技能。然而，虽然关于自动语音分离（将音频信号分离为单独的语音源）的研究已经非常深入，但该问题仍是计算机领域面临的重大挑战。谷歌今日提出一种新型音频-视觉模型，从声音混合片段（如多名说话者和背景噪音）中分离出单独的语音信号。该模型只需训练一次，就可应用于任意说话者。在《Lo

011

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

这种已经无处不在的音频转录成文本的技术，在缺乏足够大的数据集，模型过拟合严重。因此当前如何去扩增音频数据是个大问题。

谷歌工程师亲自讲解：开源TensorFlow模型在图像、语言和艺术的应用

谷歌2017开发者大会 Google I/O已经落幕，有不少亮点都值得我们学习和回顾，其中相当一部分是机器学习开发的内容。AI研习社精选了其中的精彩视频译制呈现给大家，该视频为中文字幕版首发！来自谷歌TensorFlow技术推广部的Josh Gordon 带来了一场主题为《用于图像、语言和艺术的开源TensorFlow模型》（Open Source TensorFlow Models for images, language and art）的演讲，介绍了最新的从图像识别和语义理解的TensorFlow

2016年人工智能产业梳理：一朝引爆，稳步前进（下篇）

在人工智能产业中，应用层是一个极大的部分，是人工智能技术最终的目的地。除了机器人、无人机和无人驾驶等硬件产品之外，人工智能的软件应用在单独商业化的同时，也在为这些硬件产品提供服务，像智能家居的语音控制

谷歌同声翻译Translatotron原理

作为中国人，学好英语这件事从小学开始就让人苦恼，近些年随着AI的快速发展，语言差异是否会缩小甚至被消灭成了热门话题。在5月15日，谷歌AI在博客平台发出一篇文章，正式介绍了一款能保留原声的“同声传译”黑科技，消息一出，迅速席卷网络，为科技发烧友带来了更多曙光，下面，让我们来揭开这个叫做“Translatoron”的神秘面纱。

智能语音扩展数字化服务

广义上来讲智能语音技术有各种各样的定义，以上是常见的一些热门的场景。语音识别，刚才罗老师也分享了部分内容。语音合成是文字变成语音，这部分我们后面会详细展开。再往后看，声纹识别，在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门，车上有一个小孩，突然哭闹，下一个不合适的指令，你区别不出来这个人，对语音控制来说不合适的。或者有一些不当的操作，可以通过声纹来做，通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门，实际应用当中遇到大的挑战点是什么？很多其他的生物识别靠人脸或指纹这类比较稳定的特征，可是声纹不稳定，人高兴的时候，第一天晚上唱了卡拉OK，第二天声音哑了，怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。

模式识别新研究：微软OCR两层优化提升自然场景下的文字识别精度

鼠标发明人Douglas Engelbart曾经针对人工智能的简称AI提出了另一个理念——Augmented Intelligence，即增强智能。在他看来，人已经足够聪明，我们无需再去复制人类，而是可以从更加实用的角度，将人类的智能进一步延伸，让机器去增强人的智能。 OCR （Optical Character Recognition，光学字符识别）就是这样的一项技术，它的本质上是利用光学设备去捕获图像并识别文字，将人眼的能力延伸到机器上。本文将介绍OCR技术在移动环境下面临的新挑战，以及在自然场景图像下

2020前端智能化趋势：tensorflow.js生态

hi，大家好~我是shadow，一枚设计师/全栈工程师/算法研究员，目前主要研究方向是人工智能写作和人工智能设计，当然偶尔也会跨界到人工智能艺术及其他各种AI产品。

谷歌翻译登陆！吹响重返中国号角？

来源：谷歌作者：费欣欣【新智元导读】今年3月，谷歌手机翻译已经通过更新可以让中国用户使用，并且根据中文用户习惯进行优化。另据《南华早报》早前引述中国前新闻出版总署署长柳斌杰表示，中国政府已通过多种渠道与谷歌接触，其“学术搜寻”（Google Scholar）是优先考虑解除封锁的服务；而谷歌其他被屏蔽且“不涉及政治敏感信息”的服务，之后也可能会跟进。但他指出，谷歌重返中国尚无时间表。但不论如何，先来看看谷歌翻译的各种功能吧。今天！谷歌翻译（广告）登录今天，谷歌翻译在微信朋友圈发布广告，大力推销其针对中

012

业界 | 谷歌开源深度学习街景文字识别模型：让地图随世界实时更新

选自Google Blog 作者：Julian Ibarz 机器之心编译参与：李泽南、晏奇谷歌地图的街景功能拥有 800 亿张高分辨率图片，而且这个数字还在以每天百万的速度不断增加。街景图片是获取准确地理信息的绝佳渠道，而利用深度学习从图片中获取信息，并实时更新地图地址内容正是谷歌研究团队努力的目标。每一天，谷歌地图都会为数百万人指路，并提供相应的实时路况信息和商店推荐。为了向用户提供最好的体验，这些信息必须随着不断变化的世界实时更新。谷歌街景车每天都会收集数百万张图片，而人工分析这超过 800 亿张

训练文本识别器，你可能需要这些数据集

我们知道，监督式深度学习非常依赖于带标签的数据集，通常数据集越大，训练出的模型效果越好，对于文本检测和识别也是如此，为了训练出好的模型，我们需要大型数据集。然而，为了收集真实世界的带标签的图片数据集非常难，为图片做标注非常耗时，代价昂贵，个人和小型企业无法承担。得益于互联网的开放性，我们可以得到许多大的公司和研究机构标注好的数据集，下面就简单汇总一下在文本检测和识别领域有哪些开放数据集。

谷歌语音转录背后的神经网络

【编者按】由于“记忆单元”的优势，LSTM RNNs已经应用于Google、百度、科大讯飞的语音处理之中。最近，Google在其技术博客中自述了使用LSTM模型取代GMM模型实现语音转录的过程。文章尚未披露训练模型的具体步骤，但介绍了数据源的解决、建模的思想，并对目前尚未解决的问题进行解析，如错认“噪音”和转录标点符号，对希望尝试LSTM的团队有借鉴意义。在过去的几年中，深度学习在世界计算机科学难题中表现出了卓越的成就，从图像分类、字幕添加到机器翻译，再到可视化模型技术。最近，我们宣布了在谷歌语音转录上使

倪捷：智能语音扩展数字化服务

26秒 vs 51分钟，AI又要抢律师的饭碗了？

4个小时，5篇保密合同，30个法律问题。在这场巅峰对决中，人类与AI谁会略胜一筹？

新年将至，沉睡的文本数据也该醒醒了

随着企业收集的非结构化数据不断增加，文本智能处理的价值和流行趋势也处于上升阶段。越来越多的企业意识到利用文本挖掘从企业文本资源库中提取知识和提升效率的重要性。达观数据联合创始人桂洪冠，近日作为邀请嘉宾在年末亿欧四周年庆典上和各领域嘉宾一同探讨了文本挖掘在企业中的应用现状及未来前景展望。桂洪冠作为文本智能领域的处理专家，在大数据架构与核心算法以及文本挖掘等领域有深厚的积累和丰富的实战经验。和我们熟悉的结构化数据不同，当提到文本数据时，常有以下几种特点： 1.数据无结构化文档格式多样化，通常以PDF、

业界 | 对比了六家计算机视觉API，发现最好的竟然是...

选自free Code Camp 作者：Mariya Yao 机器之心编译参与：蒋思源、刘晓坤本文通过吉娃娃与松饼的图像对比了流行的六大计算机视觉API，作者希望能借助这些识别情况帮助读者了解各

python图片文本识别的简单实现

http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.html

01. OCR 文字识别学习路径

由于最近在接触一些OCR的工作，所以本期《晓说AI》和大家分享一下我的一些总结，先从基本的概念讲起。如有错误，还请指正，谢你3千遍。如有疑问，欢迎留言，我会第一时间答复。

谷歌发布新一代定向人声分离系统，2.2MB模型提升设备端语音识别

鸡尾酒会问题一直是语音识别领域中的重要研究课题。在一场人声嘈杂的鸡尾酒会上，人们难以专注于眼前正与自己交谈的那个人的声音。而对于语音识别算法而言，重叠语音信号会使识别准确率大幅降低，甚至有时无法识别出任何文字。

开发 | 谷歌开源计算机视觉模型MobileNets：专为不同级别移动设备优化

AI 科技评论消息，谷歌刚刚对外发布了开源计算机视觉模型MobileNets。MobileNets是一系列为移动和嵌入式设备设计的计算机视觉模型，它可以利用设备有限的资源高效运行，并提供尽可能高的准确

深度学习的应用实例：重塑各个领域的未来

深度学习是人工智能领域的一个重要分支，它利用神经网络模拟人类大脑的学习过程，通过大量数据训练模型，使其能够自动提取特征、识别模式、进行分类和预测等任务。近年来，深度学习在多个领域取得了显著的进展，尤其在自然语言处理、计算机视觉、语音识别和机器翻译等领域取得了突破性的进展。随着算法和模型的改进、计算能力的提升以及数据量的增长，深度学习的应用范围不断扩大，对各行各业产生了深远的影响。

谷歌大脑负责人Jeff Dean：深度学习技术及趋势报告（76页PPT）

【新智元导读】谷歌大脑负责人Jeff Dean上周在“嵌入式视觉年度峰会”上发表演讲《智能计算系统中的大规模深度学习》，结合多年应用实例，讨论在从手机到数据中心等不同环境中部署机器学习模型的不同方法，

两款典型的AI工具：Magic editor 和Genmo AI

谷歌相册新推出的Magic Editor图片编辑功能，是一款集成了人工智能生成内容（AIGC）的前沿产品。与传统修图应用相比，谷歌相册在几个关键方面展现出其独特优势： 1. **多图处理**：谷歌相册能够处理一系列类似照片中的问题，而普通修图应用通常只能一次处理一张图片。 2. **突出修复**：相册专注于修复明显的问题，而传统修图工具则更侧重于细致的编辑。 Google Photo的AI切入点： 1. **最佳表情提取**：这项功能可以从多张相似照片中挑选出人物的最佳表情，并将其融合到当前照片中，极大地提高合照的质量。 2. **先进的消除笔**：传统消除笔在处理复杂对象时可能力不从心，而AIGC技术则大大提升了这一功能的效率和准确度。 3. **物体移动与缩放**：包括精准抠图和背景填充。 4. **声音降噪**：支持声音解析为多声道，并能处理不同声道，以提高音频质量。 5. **模糊变清晰**：这是某些应用的特色功能，也被Google Photo所采纳。总的来说，谷歌相册的Magic Editor为图片编辑带来了革命性的变化，它不仅提高了编辑效率，还扩展了创作的可能性。对于追求完美合照和高质量图片编辑的用户来说，这无疑是一项值得尝试的强大工具。

OCR截图文字识别提取(无需安装)「建议收藏」

本软件无需安装, 适用于Windows 平台，具有截图文字提取，贴图，翻译等功能，可以非常方便地提取出图片，网页中的文本信息。

实用:Google Chrome 键盘快捷键大全

窗口和标签页快捷方式 Ctrl+N 打开新窗口按住 Ctrl‎ 键，然后点击链接在新标签页中打开链接按住 Shift 键，然后点击链接在新窗口中打开链接 Alt+F4 关闭当前窗口 Ctrl+T 打开新标签页 Ctrl+Shift+T 重新打开上次关闭的标签页。谷歌浏览器可记住您关闭的最后 10 个标签页。将链接拖动到标签页内在指定标签页中打开链接将链接拖动到两个标签页之间在新标签页横条上的指定位置打开链接 Ctrl+1 到 Ctrl+8 切换到指定位

图像文字识别-环境配置

在图像识别的文章发出后，有些朋友对内容比较感兴趣。但对于很多从没接触过类似内容的朋友来说，搭建一个类似的环境还是有点难度的（也就是一点）。

谷歌重磅推出Android Pie，以AI为驱动

谷歌今天透露，Android P代表Android Pie，接替Android Oreo，并将最新的源代码推送到Android开源项目（AOSP）。谷歌移动操作系统Android 9.0 Pie的最新版本也将开始推出，作为对Pixel手机的无线更新。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐