开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在训练用于自动语音识别的模型时降低单词错误率

在训练用于自动语音识别的模型时，降低单词错误率是一个关键的目标。单词错误率是指模型在语音识别过程中将正确的单词错误地识别成其他单词的比例。

为了降低单词错误率，可以采取以下几种方法和技术：

数据预处理：对训练数据进行预处理是提高模型性能的重要步骤。可以采用语音增强、降噪、音频对齐等技术，以提高输入数据的质量和准确性。
模型优化：选择合适的模型架构和算法是关键。常见的语音识别模型包括深度神经网络（DNN）、卷积神经网络（CNN）和循环神经网络（RNN）等。此外，还可以采用注意力机制（Attention）和转录器（Transducer）等先进技术来提高识别性能。
数据增强：通过对训练数据进行扩充和增强，可以提高模型的鲁棒性和泛化能力。常见的数据增强技术包括语速变化、声调变化、音量变化、噪声注入等。
语言模型优化：语言模型用于对识别结果进行后处理，以提高识别准确性。可以使用统计语言模型（如N-gram模型）或基于深度学习的语言模型（如循环神经网络语言模型）来优化识别结果。
模型融合：将多个模型的输出进行融合可以提高整体的识别性能。可以采用多模型投票、加权融合或者神经网络模型的集成学习等方法。

对于降低单词错误率，腾讯云提供了以下相关产品和服务：

腾讯云语音识别（Automatic Speech Recognition，ASR）：腾讯云的语音识别服务支持多种语音识别场景，包括实时语音识别、录音文件识别和语音唤醒等。详情请参考腾讯云语音识别产品介绍。
腾讯云智聆（AI Audio）：智聆是腾讯云基于AI技术开发的一站式音频处理服务。它包括了声音增强、降噪、音频转写等功能，可以帮助提高语音识别的准确性。详情请参考腾讯云智聆产品介绍。

请注意，以上所提到的产品和服务仅代表了腾讯云在语音识别领域的相关解决方案，并非为广告推广。您在选择和使用产品时应综合考虑自身需求和情况，并进行适当的评估。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

谷歌AI在没有语言模型的情况下，实现了最高性能的语音识别

谷歌AI研究人员正在将计算机视觉应用于声波视觉效果，从而在不使用语言模型的情况下实现最先进的语音识别性能。

07

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI 科技评论按：把一段输入音频转换为一段文本的任务「自动语音识别（ASR）」，是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube 自动字幕生成、智能家电的语音控制都受益于自动语音识别技术的发展。不过，开发基于深度学习的语音识别系统还不是一个已经完善解决的问题，其中一方面的难点在于，含有大量参数的语音识别系统很容易过拟合到训练数据上，当训练不够充分时就无法很好地泛化到从未见过的数据。

03

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI 科技评论按：把一段输入音频转换为一段文本的任务「自动语音识别（ASR）」，是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube 自动字幕生成、智能家电的语音控制都受益于自动语音识别技术的发展。不过，开发基于深度学习的语音识别系统还不是一个已经完善解决的问题，其中一方面的难点在于，含有大量参数的语音识别系统很容易过拟合到训练数据上，当训练不够充分时就无法很好地泛化到从未见过的数据。

01

嘈杂场景语音识别准确率怎么提？脸书：看嘴唇

最近，Meta提出了一种视听版BERT，不仅能读唇语，还能将识别错误率降低75%。

01

纯干货 | 深度学习研究综述

先来一首《好久不见》，给大家说一声抱歉，最近因为种种的原因，没有通过“计算机视觉战队”给打开带来好的文章和知识的分享，在此，代表“计算机视觉战队”向所有关注我们的您敬个礼，也非常感谢大家的支持，谢谢！注：希望大家看这篇文章的时候，可以听着音乐来阅读，因为这是一篇简单易懂，并且可以给大家带来一丝放松的内容吧，希望能给有需要的您带来一些帮助，谢谢支持。那我们就回归正题，来开始和您来聊聊已经占领了半片天的人工智能，作为学习者的我，也不敢说的太深入，更希望得到大家的指正与批评，来增加平台文章的质量。进一步

06

学界 | 一文概览语音识别中尚未解决的问题

选自Awni 机器之心编译参与：Nurhachu Null、路雪深度学习应用到语音识别领域之后，词错率有了显著降低。但是语音识别并未达到人类水平，仍然存在多个亟待解决的问题。本文从口音、噪声、多说话人、语境、部署等多个方面介绍了语音识别中尚未解决的问题。深度学习被应用在语音识别领域之后，词错率有了显著地降低。然而，尽管你已经读到了很多这类的论文，但是我们仍然没有实现人类水平的语音识别。语音识别器有很多失效的模式。认识到这些问题并且采取措施去解决它们则是语音识别能够取得进步的关键。这是把自动语音识别（

06

【专访微软黄学东】0.1%，0.2%与0.3%，语音识别军备竞赛中小数点差距有何意义

【新智元导读】微软语音识别研究团队在黄学东的带领下，去年将语音识别的单词错误率降至5.9%，又在最近降至5.1%。在本次专访中，我们讨论了语音识别错误率百分之几的小数点在研究和实际应用上的意义。黄学东认为，从研究角度来说，这个意义十分重大，即便是0.1%的差距，无论是运算量还是时间，耗费都是巨大的。达到人类水平，超越人类水平，人工智能研究领域的突破性进展。以上赞誉被给予了微软最近的语音识别研究成果：其语音识别研究团队在黄学东的带领下，去年将语音识别的单词错误率降至5.9%，又在最近降至5.1%。从研

07

干货 | Siri 语音识别的小心机：你在哪里，就能更准确地识别那附近的地址

AI 科技评论按：这篇文章来自苹果机器学习日记（Apple Machine Learning Journal）。与其他科技巨头人工智能实验室博客的论文解读、技术成果分享不同，苹果的机器学习日记虽然也是介绍他们对机器学习相关技术的心得体会，但侧重点在于技术产品的实现过程、技术资源用户体验之间的取舍，更像是「产品经理的 AI app 研发日记」。过往内容可以参见如何设计能在Apple Watch上实时运行的中文手写识别系统，苹果揭秘「Hey Siri」的开发细节，为了让iPhone实时运行人脸检测算法，苹果原来做了这么多努力。

02

是谁在说话？谷歌多人语音识别新系统错误率降至2%

识别「谁说了什么」，也就是「说话人分类」任务是自动理解人类对话音频的关键步骤。例如，在一个医生与患者的对话中，「患者」在回答医生的问题（「你经常服用心脏病药物吗？」）时说了「Yes」，这和医生用反问的语气说「Yes？」的含义截然不同。

02

AI帮助保护濒危的印第安语言——塞内卡

全世界有近7000种语言，其中约一半被认为是濒危语言。这意味着他们中的许多人不在学校教授，语言不在商业或政府中使用，并且经常与计算机键盘不兼容。

04

非神经网络的深度模型

---- 深度学习最大的贡献，个人认为就是表征学习（representation learning），通过端到端的训练，发现更好的features，而后面用于分类（或其他任务）的输出function，往往也只是普通的softmax（或者其他一些经典而又简单的方法）而已，所以，只要特征足够好，分类函数本身并不需要复杂——博主自己在做research的时候也深有同感，以前很多paper其实是误入歧途，采用的feature非常混淆模糊没有区分性，却指望在分类器上获得好的结果，可能么？深度学习可以说是回到了问题的

09

看硅谷数据工程师如何使用TensorFlow构建、训练和改进RNN

在本文中，我们提供了一个用于训练语音识别的RNN的简短教程，其中包含了GitHub项目链接。作者：Matthew Rubashkin、Matt Mollison 硅谷数据科学公司在SVDS的深度

04

镁佳科技语音论文入选国际知名会议ISCSLP，针对ASR和VAD联合建模提出更优解决方案

中文口语语言处理国际会议ISCSLP为中文语音处理领域的知名国际会议，由国际语音交流协会中文口语处理专业委员会ISCA SIG-CSLP 主办，会上发布成果对中文智能语音的发展具有重要指导意义。

02

使用VoiceFliter-Lite改进设备上的语音识别

原文链接 / https://ai.googleblog.com/2020/11/improving-on-device-speech-recognition.html

01

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

从 WaveNet 到 Tacotron，再到 RNN-T，谷歌一直站在语音人工智能技术的最前沿。近日，他们又将多人语音识别和说话人分类问题融合在了同一个网络模型中，在模型性能上取得了重大的突破。

02

AI 看唇语，在嘈杂场景的语音识别准确率高达75%

编译 | 禾木木出品 | AI科技大本营（ID:rgznai100）人们通过聆听和观察说话者的嘴唇动作来感知言语。那么，AI 也可以吗？事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。为了研究视觉效果，尤其是嘴部动作的镜头，是否可以提高语音识别系统的性能。Meta 的研究人员开发了 Audio-Visual Hidden Unit BERT (AV-HuBERT)，这是一个通过观看学习和听人们说

01

AI 看唇语，在嘈杂场景的语音识别准确率高达75%

事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。

03

手机输入法不好用？谷歌要用AI让你打字更快

陈桦编译整理量子位报道 | 公众号 QbitAI 现在，大部分人的日常生活，都离不开手机上的虚拟键盘，而这其中的大部分人都会觉得虚拟键盘不好用。数据显示，相对于实体键盘，用户用虚拟键盘打字的速度要慢35%。于是，谷歌又看到了人工智能技术的用武之地。他们优化了Android系统的Gboard输入法，目标是建立智能化机制，无论你选择什么语言都能带来更快的输入速度，并提供拼写建议和错误更正功能。 Google Research官方博客昨天发布文章，介绍了他们对Gboard的优化，量子位编译如下：我们注意

07

哥大研究员开发实时语音隐藏算法以阻止麦克风监听

对于窃取用户语音隐私这件事，企业和用户基本上都是各执一词。有的企业表示，从技术上，目前声音信息的处理，远达不到通过麦克风去获取个人隐私的水平。

01

【微软语音识别新突破，错误率降至5.1%】黄学东：新的行业里程碑

【新智元导读】微软语音识别系统取得最新突破：微软的语音对话研究小组在Switchboard语音识别任务中，将错误率从去年的 5.9% 再一次降低到 5.1%，达到目前最先进水平。去年，微软的语音与对话研究小组宣布在Switchboard 对话语音识别任务上达到人类水平，实现里程碑式的突破。微软技术Fellow黄学东在微软官方博客上称，这意味着，他们创造了一种技术，可以在对话中识别词语，且与人类专业的速记员水平相当。黄学东在博客上说：“在我们的转录系统达到5.9％的错误率之后，其他研究人员进行了自己的研

05

Meta AI 推出 AV-HuBERT：一种最先进的自我监督框架，用于理解通过看到和听到人们说话来学习的语音

人工智能用于各种语音识别和理解活动，从启用智能扬声器到为失聪或有语言障碍的人设计辅助工具。然而这些语音理解算法经常在最需要它们的日常场景中表现不佳：当很多人同时说话或有很多背景噪音时。即使是先进的降噪技术也常常无法有效应对海滩旅行中的海浪声或嘈杂的街头市场背景的喧闹声。

02

谷歌语音转录背后的神经网络

【编者按】由于“记忆单元”的优势，LSTM RNNs已经应用于Google、百度、科大讯飞的语音处理之中。最近，Google在其技术博客中自述了使用LSTM模型取代GMM模型实现语音转录的过程。文章尚未披露训练模型的具体步骤，但介绍了数据源的解决、建模的思想，并对目前尚未解决的问题进行解析，如错认“噪音”和转录标点符号，对希望尝试LSTM的团队有借鉴意义。在过去的几年中，深度学习在世界计算机科学难题中表现出了卓越的成就，从图像分类、字幕添加到机器翻译，再到可视化模型技术。最近，我们宣布了在谷歌语音转录上使

04

比 OpenAI 更好！！谷歌发布 20 亿参数通用语音模型——USM

整理 | 禾木木责编 | 王子彧出品 | CSDN（ID：CSDNnews）去年11月，谷歌曾宣布“1000 种语言计划”，通过建立一个机器学习模型，从而支持世界上使用人数最多的 1000 种语言。近日，谷歌正式发布 20 亿参数通用语音模型——USM，可支持 100 多种语言自动识别内容检测。谷歌将其描述为“最先进的通用语音模型”，拥有 20 亿个参数，经过了 1200 万小时的语音、280 亿个句子和 300 多个语种数据集的预训练。目前该模型在 Youtube 的字幕生成中已展现

02

重磅 | 小米首次公开发表论文：基于注意力机制的端对端语音识别（附论文翻译）

文/CSDN周翔今年 3 月，雷军在两会的媒体沟通会上表示，“去年年初，小米设立了探索实验室，不久将有重磅级的人工智能产品发布。” 昨日（7 月 26 日）下午，传闻已久小米人工智能产品——小米 AI 音箱终于现身。在发布会上，王川特意提到了小米脑王刚博士带领的 NLP 团队，也就是说小米已经用上了自己的 NLP 技术。但是语音识别方面，小米 AI 音箱仍然采用了第三方的技术。不过，AI科技大本营发现，就在几天前，小米在 arXiv 上首次提交了一篇端对端的语音识别论文。这篇论文实际上是西工大计算机

06

无监督学习站起来了！Facebook第三代语音识别wav2vec-U，匹敌监督模型，Lecun看了都说好

---- 新智元报道来源：Facebook AI 编辑：LRS 【新智元导读】Facebook在语音识别上又出重磅新作，继wav2vec, wav2vec 2.0以来，又出完全不需要监督数据的wav2vec-U，小众语言也能用语音识别啦！相比显示器、鼠标、键盘这些传统的人机交互方式以外，随着语音识别技术的逐渐成熟，和电子产品进行「对话」也逐渐成为一种稀松平常的人机交互。无论是给计算机或其他设备下达指示，还是回答用户的问题，语音识别在各个方面让电子产品的使用变得更加容易，无需学习，想要干什么只

01

动态 | 新里程碑！微软语音到文字转录已经达到人类水平

AI 科技评论按：语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来，语音识别正确率有了长足的进展，也为苹果 Siri、亚马逊 Echo、科大讯飞语音输入法等等实际产品提供了生长的土壤。面对算法识别总还是比人类要差一些的现状，微软刚刚发布一篇博文公布了自己的最新成果，达到人类水平已经不是梦想。AI 科技评论编译如下。 2016年，微软语音和对话研究团队对外公布了一则里程碑性的消息，他们在 Switchboard 数据库的对话语音识别任务中达到了人类的一致性水平，这意味着他们的系统识别对话中文

09

AI 技术讲座精选：深度学习是如何改变数据科学范式的？

【AI100 导读】深度学习正在改变一切。就像电子学和计算机改变了所有的经济活动一样，人工智能将重塑零售、运输、制造、医药、电信、重工业等行业，即使是数据科学本身，也将被其所改变。人工智能的应用范围仍

08

吴恩达高徒语音专家Awni Hannun：序列模型Attention Model中的问题与挑战

【导读】注意力模型（Attention Model）被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。本文以序列模型训练为例，深入浅出地介绍了注意力机制在应用中的两个重要问题：一是解决训练和生成时输入数据分布不一致；二是训练效率，并给出了相应的解决方法。作者是Awni Hannun，斯坦福大学在读博士，师从吴恩达，曾经休学两年跟随导师吴恩达在百度硅谷实验室工作，是百度Deep Speech语音识别项目主要参与者。专知内容组整理编

06

教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

选自SVDS 作者：Matthew Rubashkin、Matt Mollison 机器之心编译参与：李泽南、吴攀来自 Silicon Valley Data Science 公司的研究人员为我们展示了循环神经网络（RNN）探索时间序列和开发语音识别模型的能力。目前有很多人工智能应用都依赖于循环深度神经网络，在谷歌（语音搜索）、百度（DeepSpeech）和亚马逊的产品中都能看到RNN的身影。然而，当我们开始着手构建自己的 RNN 模型时，我们发现在使用神经网络处理语音识别这样的任务上，几乎没有简单直

09

Hey Siri，帮我把这个boss打一下：基于音频的游戏代理探索 | 一周AI最火论文

呜啦啦啦啦啦啦啦大家好，本周的AIScholar Weekly栏目又和大家见面啦！

02

微软对话语音识别再获突破，首次达到人类专业水平

1 新智元推荐1 来源：微软研究院AI头条【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后，前天再次宣布进一步将错误率降至 5.9%，首次达成与专业速记员持平且优于绝大多数人的表现。该成功归功于他们采用了一种神经语言模型，该模型在空间中被表现为连续的向量，计算机能通过该模型得知比如“fast”和“quick”是具有紧密联系的近义词。一个月前，2016年9月14日，微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率（word error rate

06

浅谈语音识别、匹配算法和模型

语音的基本概念语音是一个复杂的现象。我们基本上不知道它是如何产生和被感知的。我们最基础的认识就是语音是由单词来构成的，然后每个单词是由音素来构成的。但事实与我们的理解大相径庭。语音是一个动态过程，不

08

全离线，无延迟！谷歌手机更新语音识别系统，模型大小仅80M

识别延迟一直是设备端语音识别技术需要解决的重大问题，谷歌手机今天更新了手机端的语音识别技术——Gboard，重磅推出了一款端到端、全神经、基于设备的语音识别器，支持Gboard中的语音输入。通过谷歌最新的（RNN-T）技术训练的模型，该模型精度超过CTC，并且只有80M，可直接在设备上运行。

03

Meta用《圣经》训练超多语言模型：识别1107种、辨认4017种语言

机器之心报道编辑：Panda 在《圣经》中有一个巴别塔的故事，说是人类联合起来计划兴建一座高塔，希望能通往天堂，但神扰乱了人类的语言，计划也就因此失败。到了今天，AI 技术有望拆除人类语言之间的藩篱，帮助人类造出文明的巴别塔。近日，Meta 的一项研究向这个方面迈出了重要一步，他们将新提出的方法称为 Massively Multilingual Speech（超多语言语音 / MMS），其以《圣经》作为训练数据的一部分，得到了以下成果：在 1107 种语言上用 wave2vec 2.0 训练得到了一个

03

深度 | IBM语音识别能力逼近人类水平，获深度学习巨头Yoshua Bengio盛赞

你知道吗？人类每听20个词，其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中，这一数字达到了80。但对于我们而言，少听一两个词并不会影响我们对语意的理解，然而想象一下，计算机如果要完成这件事有多难？去年，IBM已经在语音识别领域走到了一个新的里程碑：系统的错误率降低为6.9%；而AI科技评论了解到，近日IBM Watson的语音识别系统将这个数字降到了5.5%。清华大学的邓志东教授此前在采访中向AI科技评论表示，只有AI技术达到人类水平，它才有商业化的可能性。技术越来越接近人类水平也一直是人工

06

AIGC: 2 语音转换新纪元-Whisper技术在全球客服领域的创新运用

Whisper 是由 OpenAI 开发的一种高效的语音识别（ASR）技术，旨在将人类的语音转换成文本。

01

基于颅内脑电信号和RNN的语音转译技术

来自Chang Lab: HTTP://changlab.ucsf.edu/publications/speech-lab

02

为什么需要为孩子开发专门的语音识别算法

孩子的语音特征，其与成人的不同之处。为什么现在的通用语音识别算法在识别孩子语音的时候表现糟糕，以及Sensory的解决之道 - Sensory VoiceAI for Kids!

02

“AI孙燕姿”爆火后，Meta发布通用语音生成AI：可合成6种语言，支持多种语音功能

近日，Meta AI 宣布在生成式 AI 语音模型领域取得了突破：开发出了首个可泛化至多种语音生成任务的模型 Voicebox，无需专门训练即可达成顶尖性能表现。Meta AI 研究人员分享了多段音频样本和一篇研究论文，其中详细介绍了他们采用的方法和取得的成果。

05

8倍提升表现：谷歌新算法，从多人对话里分清谁在发言，错误率降到2%

他们不想被传统做法困住，开发了新方法：利用语音识别，把语言学线索和声学线索搭配食用，帮助区分。

04

用脑电图也能做语音识别？新研究造福语音障碍者|一周AI最火论文

呜啦啦啦啦啦啦啦大家好，拖更的AIScholar Weekly栏目又和大家见面啦！

03

微软首位华人“全球技术院士”黄学东：10个神经网络造就工程奇迹

【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”，成功摘下这一微软技术的“桂冠”。黄学东于1993年加入微软。1995年，黄学东最终把洪小文也拉入微软。黄学东还曾在Bing工作，一直跟随沈向洋博士。接受新智元的专访时，他谈到了去年微软对话语音识别词错率低至5.9%背后的故事。同时，黄学东认为语音识别的下一个大难关是语义理解，目前看来最有希望的路线是 LSTM + Attention。黄学东，微软语音识别技术 24 年老将，IEEE/ACM 双科院士，微软深度学习工具包CNT

07

国际多通道语音分离和识别大赛讯飞再夺冠，不知不觉已「三连冠」！

5月4日，有着最难语音识别任务之称的CHiME-6成绩揭晓：科大讯飞联合中科大语音及语言信息处理国家工程实验室（USTC-NELSLIP）在给定说话人边界的多通道语音识别两个参赛任务上夺冠。

02

同声传译，Skype完胜99.9%地球人

Skype前几天推出了实时语音翻译的预览版，让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。 Skype 的翻译系统主要分三步：首先，把你的实时语音转换成文字；然后，再把文字翻译成另一种语言的文字；最后，把文字转换成语音。其中，识别实时语音并转换成文字一直是最棘手的部分。图像处理和语音识别是深度学习发展的两个主要方向。近几年来，由于深度学习的进步，语音识别依靠深度神经网络（deep neural networks）也取得了不少进展。神经网络在八十年代就已出现，但真正开始焕发光芒

03

Google首席科学家韩国大学演讲：大规模深度学习

2016年3月7日，谷歌首席科学家，MapReduce、BigTable等系统的创造者，Jeff Dean受邀韩国大学，演讲主题《大规模深度学习》，这里部分来自highscalability的文字和笔者Youtube上的听录。刚好演讲在AlphaGo和李世石比赛之前，观众也问了他的预测，他只是说训练了5个月的机器跟顶尖高手的差距不好说；还有人问道他喜欢的编程语言（C++爱恨交织，喜欢Go的简洁，Sawzall才是真爱）；在Google作为首席一天是怎么过的（要吃好早饭，到处闲逛闲聊，找到那些每个领域专家一起

02

Google首席科学家谈Google是怎么做深度学习的

2016年3月7日，谷歌首席科学家，MapReduce、BigTable等系统的创造者，Jeff Dean受邀韩国大学，演讲主题《大规模深度学习》，这里部分来自highscalability的文字和笔者Youtube上的听录。刚好演讲在AlphaGo和李世石比赛之前，观众也问了他的预测，他只是说训练了5个月的机器跟顶尖高手的差距不好说；还有人问道他喜欢的编程语言（C++爱恨交织，喜欢Go的简洁，Sawzall才是真爱）；在Google作为首席一天是怎么过的（要吃好早饭，到处闲逛闲聊，找到那些每个领域专家一起攻克难题）。

04

再胜OpenAI！谷歌发布20亿参数通用模型，100多种语言自动识别翻译

---- 新智元报道编辑：编辑部【新智元导读】近日，谷歌正式发布了支持100多个语种的20亿参数通用语音模型——USM，正式对标OpenAI的开源Whisper。上周，OpenAI发布的ChatGPT API和Whisper API，刚刚引动了一场开发者的狂欢。 3月6日，谷歌就推出了一款对标的模型——USM。不仅可以支持100多种语言，而且参数量也达到了20个亿。当然了，模型依然没有对外开放，「这很谷歌」！简单来说，USM模型在涵盖1200万小时语音、280亿个句子和300种不同语言

03

ASR（语音识别）评测学习

小编新接触语音SDK项目，SDK无UI、底层调用多个C++算法库、提供的是AI服务。语音AI项目，识别效果是至关重要的一环，识别效果评测也是一项测试重点。为了制定一个专业、全面的效果评测的方案，小编学习了相关知识，对方案制定有了初步思路。希望对测试小伙伴有所帮助~~(●—●)

05

学界 | 批训练、注意力模型及其声纹分割应用，谷歌三篇论文揭示其声纹识别技术原理

机器之心报道作者：邱陆陆声纹识别技术在谷歌的诸多产品中有着重要应用。除了安卓手机目前所独有的声纹解锁功能外，谷歌的家庭语音助手 Google Home 也能通过声纹识别支持多用户模式，从而针对不同用户提供个性化服务。当你向 Google Home 查询自己的日程时，Google Home 会根据声纹判断出是你，而非其他也可能使用该设备的家庭成员在进行查询，并从你的日历中提取数据。这种多用户模式，是 Amazon Echo 等其他同类语音助手产品所不具有的。近日，谷歌在 arXiv 上发布了三篇论文，详

06

元宇宙中可跨语种交流！Meta 发布新语音模型，支持128种语言无障碍对话

语言交流是人类互动一种自然的方式，随着语音技术的发展，我们可以与设备以及未来的虚拟世界进行互动，由此虚拟体验将于我们的现实世界融为一体。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭