开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

有没有办法通过google cloud speech logging添加业务特定的元数据，与存储在google cloud上的音频文件一起存储？

是的，可以通过Google Cloud Speech Logging来添加业务特定的元数据，并与存储在Google Cloud上的音频文件一起存储。

Google Cloud Speech Logging是一种语音识别服务，可以将音频转换为文本。它提供了一个API，可以将音频文件发送到Google Cloud，并返回识别的文本结果。

要添加业务特定的元数据，您可以在发送音频文件时，通过Speech RecognitionConfig中的metadata字段传递自定义的键值对。这些元数据将与识别结果一起存储，并可以在后续的分析和处理中使用。

以下是一个示例代码片段，展示了如何使用Google Cloud Speech API添加元数据：

from google.cloud import speech_v1p1beta1 as speech

def transcribe_speech_with_metadata():
    client = speech.SpeechClient()

    # 配置音频输入
    audio = speech.RecognitionAudio(uri="gs://your-audio-bucket/your-audio-file.wav")

    # 配置语音识别参数，包括元数据
    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=16000,
        language_code="en-US",
        metadata={"key1": "value1", "key2": "value2"}
    )

    # 发送音频并获取识别结果
    response = client.recognize(config=config, audio=audio)

    # 处理识别结果
    for result in response.results:
        print("Transcript: {}".format(result.alternatives[0].transcript))

transcribe_speech_with_metadata()

在上述示例中，您需要将"gs://your-audio-bucket/your-audio-file.wav"替换为实际存储在Google Cloud上的音频文件的URI。您还可以根据需要添加更多的元数据键值对。

推荐的腾讯云相关产品是腾讯云语音识别（ASR），它提供了类似的语音识别功能，并支持添加业务特定的元数据。您可以通过访问腾讯云语音识别产品介绍页面（https://cloud.tencent.com/product/asr）了解更多信息和使用方法。

相关搜索:如果我们在启用了google-cloud-speech的项目上启用数据记录，我们是否可以访问音频文件及其识别元数据？有没有办法在每次数据写入我的Google Cloud Firestore存储桶时收到电子邮件或文本通知？以太经典怎么申请钱包挖到的以太币怎么交易以太经典钱包怎么下载以太坊在线钱包怎么样 eth没算力怎么解决选举链 ico怎么投以太坊是否到账怎么查怎么查以太坊交易记录

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python语音识别终极指北，没错，就是指北！

整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是，在 Python 程序中实现语音识别非常简单。阅读本指南，你就将会了解。你将学到：

02

这一篇就够了 python语音识别指南终极版

【导读】亚马逊的 Alexa 的巨大成功已经证明：在不远的将来，实现一定程度上的语音支持将成为日常科技的基本要求。整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是，在 Python 程序中实现语音识别非常简单。阅读本指南，你就将会了解。你将学到：

01

Python语音识别终极指南

译者 | 廉洁编辑 | 明明出品 | AI科技大本营（公众号ID：rgznai100）【AI科技大本营导读】亚马逊的 Alexa 的巨大成功已经证明：在不远的将来，实现一定程度上的语音支持将成为日常科技的基本要求。整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是，在 Python 程序中实现语音识别非常简单。通过本指南，你将学到：语音识别的工作原理； PyPI 支持哪些软件包; 如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于

04

python语音识别终极指南

译者 | 廉洁编辑 | 明明【AI科技大本营导读】亚马逊的 Alexa 的巨大成功已经证明：在不远的将来，实现一定程度上的语音支持将成为日常科技的基本要求。整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是，在 Python 程序中实现语音识别非常简单。阅读本指南，你就将会了解。你将学到： •语音识别的工作原理； •PyPI 支持哪些软件包; •如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于使用的 Python 语音识别库。

08

python语音识别终极指南

【导读】亚马逊的 Alexa 的巨大成功已经证明：在不远的将来，实现一定程度上的语音支持将成为日常科技的基本要求。整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是，在 Python 程序中实现语音识别非常简单。阅读本指南，你就将会了解。你将学到： •语音识别的工作原理； •PyPI 支持哪些软件包; •如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于使用的 Python 语音识别库。 ▌语言识别工作原理概述语音识别源于 20 世纪

07

Python终级教程！语音识别！大四学生实现语音识别技能！吊的不行

语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步，可以识别多个讲话者，并且拥有识别多种语言的庞大词汇表。

02

Python语音识别终极指北，没错，就是指北！

--AI科技大本营-- 整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是，在 Python 程序中实现语音识别非常简单。阅读本指南，你就将会了解。你将学到： •语音识别的工作原理； •PyPI 支持哪些软件包; •如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于使用的 Python 语音识别库。 ▌语言识别工作原理概述语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单

03

Python语音识别终极指北，没错，就是指北！

整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是，在 Python 程序中实现语音识别非常简单。阅读本指南，你就将会了解。你将学到： •语音识别的工作原理； •PyPI 支持哪些软件包; •如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于使用的 Python 语音识别库。 ▌语言识别工作原理概述语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识

04

使用AutoML Vision进行音频分类

对于给定的音频数据集，可以使用Spectrogram进行音频分类吗？尝试使用Google AutoML Vision。把音频文件转换成各自的频谱图，并使用频谱图作为分类问题的图像。

03

重塑银幕声音：腾讯云语音在视频中的应用

近期，改编自金宇澄同名小说，知名导演王家卫执导的电视剧《繁花》的热播引起剧烈反响。原著小说以其细腻的笔触和丰富的上海风情，描绘了 20 世纪 60 年代至 90 年代上海市民的生活图景，是一部具有浓厚地域特色和时代感的作品。王家卫的影视作品以其独特的美学风格和深刻的情感表达著称。沪语版剧中使用上海话配音，字证腔圆让人耳目一新，相信后面肯定会有更多、更好的沪语影视作品呈现给观众，也会有更多的优秀专家深度参与，用沪语来叙述上海故事。

04

如何高效低成本存储附件

如今短视频发展迅猛，数据的增长速度比以往任何时候都快，其中大部分数据是非结构化的：如图片、视频、音频等等。

01

解读 | 起底语音对抗样本：语音助手危险了吗？

机器之心原创作者：邱陆陆想要让深度学习系统走向大街小巷、走进千家万户，就要在算法研发阶段给出系统的鲁棒性检验。对于图像对抗性攻击的讨论正是如火如荼，攻防双方都是妙手频出的状态。例如，来自 MIT 和 UC Berkeley 的两位博士生，Anish Athalye 和 Nicholas Carlini 就接连攻破了 7 篇 ICLR 2018 接收的对抗防御文章，指出，你们的防御策略不过都是基于「混淆梯度」（obfuscated gradient）现象的「虚假安全感」。虽然 Ian Goodfellow

06

谷歌云重大更新：Text-to-Speech现已支持26种WaveNet语音

如果你是谷歌云客户，并且正在使用该公司的AI套件来进行文字转语音或语音转文本服务，这有个好消息：谷歌今天宣布了这些方面的重大更新，包括云文本到语音的普遍可用性，优化声音以便在不同设备上播放的新音频配置文件，多声道识别的增强功能等等。

04

人脸识别、情感分析，开发者必备50个机器学习API|值得收藏

该清单按照字母排序，对 API 的概述是基于对应官网所提供的信息整合而成。要是大家发现该清单中错过了某些当前流行的 API，可以在评论中告知。

03

2018 最新机器学习 API 推荐清单，快给 APP 加点智能

本篇基于 2017 年的推荐清单做了一些改进——去除了一些不再进行维护的 API，并且更新了一些新的 API。主要覆盖如下方向：

03

使用Python进行语音活动检测（VAD）

现今，在线通讯软件对于高质量的语音传输要求日益提高，其中，有效识别和处理音频信号中的人声段落成为了一个不可忽视的挑战。语音活动检测（Voice Activity Detection，VAD）技术正是为此而生，它可以识别出人声活动并降低背景噪声，优化带宽利用率，提升语音识别的准确性。据报道，谷歌为 WebRTC 项目开发的 VAD 是目前最好的 VAD 之一，它快速、现代且免费（WebRTC，即Web Real-Time Communication，作为一种支持网页浏览器进行实时语音、视频通话和点对点分享的技术，内置了一套高效的VAD算法）。下文将详细介绍webrtcvad模块，并演示如何用Python搭建一个简单的人声语音活动检测系统。

01

Linux下利用python实现语音识别详细教程

语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步，可以识别多个讲话者，并且拥有识别多种语言的庞大词汇表。语音识别的首要部分当然是语音。通过麦克风，语音便从物理声音被转换为电信号，然后通过模数转换器转换为数据。一旦被数字化，就可适用若干种模型，将音频转录为文本。大多数现代语音识别系统都依赖于隐马尔可夫模型（HMM）。其工作原理为：语音信号在非常短的时间尺度上（比如 10 毫秒）可被近似为静止过程，即一个其统计特性不随时间变化的过程。许多现代语音识别系统会在 HMM 识别之前使用神经网络，通过特征变换和降维的技术来简化语音信号。也可以使用语音活动检测器（VAD）将音频信号减少到可能仅包含语音的部分。幸运的是，对于 Python 使用者而言，一些语音识别服务可通过 API 在线使用，且其中大部分也提供了 Python SDK。

05

实战：基于tensorflow 的中文语音识别模型 | CSDN博文精选

目前网上关于tensorflow 的中文语音识别实现较少，而且结构功能较为简单。而百度在PaddlePaddle上的 Deepspeech2 实现功能却很强大，因此就做了一次大自然的搬运工把框架转为tensorflow….

01

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

大型语言模型（LLM）正在改变每个行业的用户期望。然而，建立以人类语音为中心的生成式人工智能产品仍然很困难，因为音频文件对大型语言模型构成了挑战。

03

带小朋友体验语音识别大模型：Whisper

亲爱的小朋友们，大家好！欢迎来到有趣的语音识别大冒险！今天，我们将一起探索神奇的语音识别世界，就像是魔法一样，让机器能听懂我们说的话。

03

Vimeo的转码设施升级之旅

点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 // 编者按：随着Google Cloud等基础设施更加成熟，通过使用更加廉价的竞价实例，可以大幅的降低成本。通过开发新的基础设施管理平台——Falkor，Vimeo的运营成本也大幅降低了。文 / Quentin Mazars-Simon 原文 / https://medium.com/vimeo-engineering-blog/riding-the-dragon-e328a3df

05

使用云函数实现语音识别案例

语音识别，也被称为自动语音识别 Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。该技术已经广泛应用于我们平时的生活中，例如：

04

开发 | 谷歌新版语音交互套件 Voice Kit 开放预订，开发者都能用它做什么？

利用深度学习做语音交互的开发者，很可能对两个谷歌的产品特别关心：五月初，谷歌 AIY 项目（“Artificial Intelligence Yourself”）的首款产品——Voice Kit 面世。 Voice Kit 套件可借助 Google Assistant SDK 和 Cloud Speech API，将树莓派3 转换为语音数字助理。用户可在此基础上创建虚拟语音助手、为自己的项目添加语音交互功能。当时，在全球开售的几小时内，Voice Kit 就被抢光——这对谷歌而言是一个很强烈的信号。A

07

GCP 上的人工智能实用指南：第一、二部分

在本节中，我们将介绍 Google Cloud Platform（GCP）上的无服务器计算基础。我们还将概述 GCP 上可用的 AI 组件，并向您介绍 GCP 上的各种计算和处理选项。

01

语音合成之PHP合并多个mp3文件为一个文件

近期在做一个文字转语音的功能，使用的是百度AI的语音合成接口，使用起来比较简单，文档说明也比较好。但是在转换文字长度上面有限制，官方给出解决办法是多次调用接口生成音频文件。这个方式也是可以的。但是我想在文字转换后可以播放、暂停等功能，如果是多个音频文件，那就没有办法进行暂停操作了。或者操作起来比较麻烦，还是将多个音频文件合成到一个文件中。

01

自制基于 Snips 和 Snowboy 的智能音箱来保护你的隐私

一步步教你用现有硬件，构建隐私、开源、声控的音箱。 Snips 的团队已经开发了一款开源智能扬声器，它与 Spotify 一起运行。音箱（或扬声器）专注于音乐播放，并且可以轻松地通过说出您想要听的东西，来控制您正在听的音乐。它纯粹只是一个演示项目，但是我们已经习惯了便利性，所以我们希望让任何有兴趣，在家就可能以简单的复制。我们在整个项目中，将学到关于 Raspberry Pi 上的音乐播放、Arduino 和各种 IoT 技术，并希望能分享最有趣的部分。我们将介绍扬声器的每个部分。但是为了尽可能简单，我

09

我是怎么从30个并发平均每个2000毫秒到 300个并发平均每个178毫秒的

最近一个多月一直在做服务器的性能优化，老大的要求是要做到300个并发，控制在200毫秒以内，就说说我最近做的内容吧。从30个并发平均每个2000毫秒到 300个并发平均每个178毫秒简单介绍一下做了那些优化： 01、减少log日志的打印 02、减少redis的交互 03、耗时操作的处理 04、大文件信息的存储 05、python的缓存机制 06、异步处理非返回操作

02

Edge-TTS：文本转语音好帮手

今天我要给大家介绍一款名叫 Edge-TTS 的工具。Edge-TTS，全称为 Edge Text-to-Speech。文本转语音技术，它的发展历史可以追溯到 20 世纪 60 年代，当时科学家们开始研究如何将文本信息转化为语音。然而，由于当时的技术限制，早期的文本转语音系统的声音质量并不高，听起来往往机械化且不自然。

01

腾讯AI Lab副主任俞栋在GMIS 2017大会上的演讲：语音识别领域的四项前沿研究

本文转载自机器之心作者：黄小天 5 月 27 日，由机器之心主办、为期两天的全球机器智能峰会（GMIS 2017）在北京 898 创新空间顺利开幕。大会第一天重要嘉宾「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与峰会，并在主题演讲、圆桌论坛等互动形式下，从科学家、企业家、

05

谷歌文本转语音系统更新可选择学习模型

据外媒报道，近日，谷歌更新了其云端文本转语音（Cloud Text-to-Speech）API。

00

从人脸识别到情感分析，50个机器学习实用API

API是一套用于构建应用软件程序的规范，协议和工具。在本文中，我们从2017年的清单中删除了停用的API，并利用新元素对其进行了更新。并且，所有的API被归类到以下几个领域：

01

嵌入式音视频疑惑汇总（持续更新）

“Bypass HDR” 是指绕过高动态范围（HDR）功能的一种设置。HDR 是指一种显示技术，它可以提供更高的色彩深度和亮度范围，从而产生更加真实、明亮和有层次感的图像。在某些情况下，用户可能会选择禁用 HDR 功能，例如当他们观看不支持 HDR 的内容时，或者在使用某些应用程序时需要禁用 HDR 以获得更好的性能。因此，“Bypass HDR”是一种设置选项，允许用户启用或禁用HDR功能。

02

语音识别基础学习与录音笔实时转写测试

小编所在项目中，C1、C1Pro、C1Max录音笔，通过BLE和APP连接，音频文件实时传输到录音助手App端，具备实时录音转写的功能。工欲善其事必先利其器，小编补习了语音识别相关基础知识，对所测试应用的实时转写业务逻辑有了更深的认识。希望对语音测试的小伙伴们也有所帮助~~(●—●)

02

Audirvana for Mac(无损音乐播放器)

Audirvana 是适用于 macOS 和 Windows 的流行高端音乐播放器软件。它旨在通过提供一系列功能（例如比特完美播放、高级上采样、元数据管理以及与 Tidal 和 Qobuz 流媒体服务的集成）为发烧友提供优质的聆听体验。Audirvana 支持多种音频格式，包括 FLAC、ALAC、DSD 和 MQA，并且可以播放到各种类型的数模转换器 (DAC)。此外，Audirvana 提供了一个直观的用户界面，允许用户轻松浏览和组织他们的音乐库、创建播放列表和控制播放。

02

Sensory TSSV - TrulySecureSpeakerVerificatio

TSSV-面向硬件设备和应用的嵌入式的和简单的安全验证(Secure Authentication)技术。

01

50多种适合机器学习和预测应用的API，你的选择是？（2018年版本）

对于做工程项目和搞科研的人来说，有现成的模块或工具使用是一件多么美妙的事情啊，无需访问源码或理解内部工作机制的细节即可完成相应的任务。常用的方法是调用一些API，即一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力。本文总结对于机器学习行业者有用的50多个API，主要涉及的领域如下：

01

提取音频中的人声: 简明指南

在当今技术日益进步的时代，人工智能(AI)在多媒体处理中的应用变得越发广泛和精深。特别地，从各种背景噪声环境中精确地提取人声说话片段，这项技术已成为智能音频分析领域的研究热点。本文将深入探讨利用先进的Silero Voice Activity Detector (VAD)模型，如何实现从音频文件中获得清晰人声片段的目标，进而揭示这一技术在实际应用中的巨大潜力。

01

.NET 的文本转语音合成

我经常飞去芬兰见我的妈妈。每次飞机降落在万塔机场时，我都会对鲜有旅客前往机场出口感到惊讶。绝大多数的旅客会转机到跨越所有中欧及东欧的目的地。所以难怪在飞机开始下降时，会发出一大堆有关转机的公告。“如果你的目的地是塔林，请到 123 号登机口登机”，“如果是飞往圣彼德堡的 XYZ 次航班，请到 234 号登机口登机”等。当然，乘务员通常不会讲十几种语言，因此他们使用英语，而英语不是大多数旅客的本地语言。鉴于客机上的公告 (PA) 系统的质量，以及引擎噪音、哭闹的婴儿和其他干扰，如何有效地传达信息？

02

时移世易：遵从既往经验致 1.5PB 数据删除，Google SRE是如何应对的？

本文出自《SRE：Google运维解密》，由Google资深SRE 孙宇聪担任译者，首次深度剖析Google SRE。 Google Music——2012 年 3 月 :一次意外删除事故的检测过程此事故特殊点在于，海量数据存储所带来的后勤方面的挑战：去哪里存放5000盘磁带，以及如何能够迅速地(甚至是可行的)从离线媒介中读出数据—— 而这一切还要发生在一个合理的时间范围内。 1. 发现问题：灾难来临一个 Google Music 用户汇报某些之前播放正常的歌曲现在无法播放了。Google Mus

手把手教学！如何自己训练一个AI歌手 - so-vits-svc云端训练教程

so-vits-svc是基于VITS的开源项目，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型。

NASA推出新应用大量音视频放送

授权转载自NASA中文作者 | 尘埃 NASA正式推出了一个新的资源，可帮助公众通过关键字和元数据(metadata)在NASA.GOV，搜索和下载有关航空，天体物理，地球科学，载人航天等方面，总量超过14万的图片，视频和音频文件。一起从这里探索宇宙吧，访问地址：https://images.nasa.gov/ 用户现在不仅可以将内容嵌入到自己的网站，也可下载高分辨率的大图。 https://images.nasa.gov/访问页面在这里，访问者不仅可以看到NASA最新上传的文件，也可发现历史上最受欢

04

从人脸识别到情感分析，这有50个机器学习实用API！

大数据文摘作品编译：大茜、Shan LIU、云舟还在为找不到机器学习的API而烦恼吗？本篇文章将介绍一个包含50+关于人脸和图像识别，文本分析，NLP，情感分析，语言翻译，机器学习和预测的API列表，快快收藏吧~ API是一套用于构建应用软件程序的规范，协议和工具。在本文中，我们从2017年的清单中删除了停用的API，并利用新元素对其进行了更新。并且，所有的API被归类到以下几个领域：人脸和图像识别文本分析，NLP，情感分析语言翻译机器学习和预测在每组应用中，列表中的元素按字母顺序排列。相

05

借助Video Intelligence API实现视频智能检测识别

点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息编者按：MeshCloud通过与GCP合作为中国出海企业提供强大的全球基础架构。LiveVideoStack邀请到了MeshCloud的陈满老师，为我们介绍如何借助谷歌云在视频智能检测识别方面的技术与能力，实现海外音视频业务的快速与高质量部署。文/陈满整理/LiveVideoStack‍‍ 大家好，我是来自MeshCloud的陈满，今天我分享的主题是使用Google Cloud集成API实

01

唇语识别技术的开源教程，听不见声音我也能知道你说什么！

【导读】唇语识别系统使用机器视觉技术，从图像中连续识别出人脸，判断其中正在说话的人，提取此人连续的口型变化特征，随即将连续变化的特征输入到唇语识别模型中，识别出讲话人口型对应的发音，随后根据识别出的发音，计算出可能性最大的自然语言语句。

01

[AI OpenAI-doc] 语音转文字

音频 API 提供了两个语音转文本的端点，即转录和翻译，基于我们先进的开源大型-v2 Whisper 模型。它们可用于：

01

探索 GPTCache｜GPT-4 将开启多模态 AI 时代，GPTCache + Milvus 带来省钱秘籍

世界正处于数字化的浪潮中，为了更好理解和分析大量数据，人们对于人工智能（AI）解决方案的需求呈爆炸式增长。

02

手把手 | 如何训练一个简单的音频识别网络

大数据文摘作品编译：happen，吴双高宁，笪洁琼，魏子敏本文将一步步向你展示，如何建立一个能识别10个不同词语的基本语音识别网络。你需要知道，真正的语音与音频识别系统要复杂的多，但就像图像识别领域的MNIST，它将让你对所涉及的技术有个基本了解。完成本教程后，你将拥有一个模型，能够辨别一个1秒钟的音频片段是否是无声的、无法识别的词语，或者是“yes”、“no”、“up”、“down”、“left”、“right”、“on”、“off”、“stop”、“go”。你还可以使用这个模型并在Android

03

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

选自Google Blog 作者：Yuxuan Wang、RJ Skerry-Ryan 机器之心编译参与：黄小天、李亚洲、李泽南神经网络文本转语音（TTS）是自然语言处理领域的重要方向，很多谷歌的产品（如 Google Assistant、搜索、地图）都内置了这样的功能。目前的系统已经可以产生接近人声的语音，但仍然显得不够自然。在最近发表的两篇论文中，谷歌为自己的 Tacotron 系统加入了对韵律学的建模，以帮助人们利用自己的声音进行个性化语音合成。最近，谷歌在基于神经网络的文本转语音（TTS）的研

07

从人脸识别到机器翻译：52个有用的机器学习和预测API

人工智能正在成为新一代技术变革的基础技术，但从头开始为自己的应用和业务开发人工智能程序既成本高昂，且往往很难达到自己想要的性能表现，但好在我们有大量现成可用的 API 可以使用。开发者可以通过这些 API 将其它公司提供的智能识别、媒体监测和定向广告等人工智能服务集成到自己的产品中。机器之心在 2015 年底就曾经编译过一篇介绍当前优质人工智能和机器学习 API 的文章《技术 | 50 个常用的人工智能和机器学习 API》，列举了 50 个较为常用的涉及到机器学习、推理预测、文本分析及归类、人脸识别、语言翻译等多个方面的 API。一年多过去了，好用的 API 也出现了一些新旧更迭，现在是时候对这篇文章进行更新了。

01

应用深度学习使用 Tensorflow 对音频进行分类

原文链接 / https://pub.towardsai.net/a-gentle-introduction-to-audio-classification-with-tensorflow-c469cb0be6f5

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭