展开

关键词

人声分离攻破“鸡尾酒会”效应,将为语音识别带来哪些新可能?丨科技云·视角

所谓的音频-视觉语音分离模型,就是加强选中人的语音,同时减弱同一间其他人的音量。 通过这种表现,网络系统可以学会为每位发声对象对应输出频掩码。输出的频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而形成每一位说话者单独纯净的音频信号。 首先智能音箱的语音识别精确度将大幅提升。目前,智能音箱的技术难题在于语音识别技术如何在嘈杂的环境中识别语音指令,包括酒吧和体育场等人声鼎沸的场景。 为此,微软在Xbox上部署了一款名为Voice Studio的应用,专门收集人们在玩游戏或看电影的对话信息。 为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。 但是,效果并不尽如人意。如何在嘈杂环境识别人声、如何分别多人声音依然是智能音箱的难题。

17020

攻破“鸡尾酒会”难题,人声分离给生活带来了哪些改变?

文 | 柯鸣 试想一下,在一个嘈杂的鸡尾酒会上,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音,这对于我们人类来说十分简单。 输出的是将输入视频的音轨分解成纯净的音轨,并对应上相应的说话者。 所谓的音频-视觉语音分离模型,就是加强选中人的语音,同时减弱同一间其他人的音量。 通过这种表现,网络系统可以学会为每位发声对象对应输出频掩码。输出的频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而形成每一位说话者单独纯净的音频信号。 ? 为此,微软在Xbox上部署了一款名为Voice Studio的应用,专门收集人们在玩游戏或看电影的对话信息。 为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。 但是,效果并不尽如人意。如何在嘈杂环境识别人声、如何分别多人声音依然是智能音箱的难题。

65240
  • 广告
    关闭

    语音识别特惠,低至1元!!

    为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用,外部落地录音质检、会议实时转写、语音输入法等多个场景。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型

    谷歌今日提出一种新型音频-视觉模型,从声音混合片段(多名说话者和背景噪音)中分离出单独的语音信号。该模型只需训练一次,就可应用于任意说话者。 直观地讲,人的嘴的运动应当与该人说话产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。 然后从视频中提取带有清晰语音的片段(没有音乐、观众声音或其他说话者声音的片段)和视频帧中只有一个说话者的片段。 有了这种联合表征,网络可以学习为每个说话者输出频掩码。输出掩码乘以带噪声的输入光谱图,然后被转换成时域波形,以获取每位说话者的单独、干净的语音信号。 视觉特征用于「聚焦」场景中目标说话者的音频,以提高语音分离的质量。为了训练联合音频-视觉模型,我们引入了新型数据集 AVSpeech,该数据集包含从网页上收集的数千小视频片段。

    839110

    GME语音服务基于浏览器解决方案

    此时如何在网页端实现一个稳定, 便捷, 扩展性良好的音频服务SDK, 以及有什么需要关注的点 ? GME研发工程师白兴师将为您详细介绍GME在这个过程中踩过的坑, 绕过的弯路。 假设您是一个APP或者一个游戏,想使用语音能力,那你就可以接入GME,不用再考虑语音这一部分的服务器问题、语音细节优化等一些问题都可以不用考虑了,这是我们提供能力的初衷。 是更偏向远程的一种社交,远程在历史上是通过书信给家里寄信件,后来是电话,然后是电视,包括现在的一些实时音视频能力,模拟面对面的社交,但是远程社交在游戏里还有一些不太一样的体验,游戏是一个强交互的APP,大家在玩游戏的过程中更多在游戏的交互上 ,语音只是交互的一个辅助,语音文字就是很好的一个释放接入点。 这过程中,有一些技术,例如如何保证采集音源的质量,如何去除音频里的一些杂质信息,说话的背景音去掉,产出有效信息。怎么把有效的信息在有效的带宽下,另外网络也是不确定的一个因素,安全稳当地送到对方接收端。

    19601

    如何做好游戏内实时语音体验

    移动游戏环境下的声音处理 相比于客户端游戏的场景,移动端游戏最大的优势在于我们可以“移动”着玩游戏,然而在实时语音上,这种“移动”的便捷性也为清晰的语音传输引入了更多的问题:地铁或路上嘈杂的背景音影响正常的语音质量 ;手机距离嘴巴距离的忽远忽近,声音忽大忽小;多人说话外加游戏的背景音的混叠导致能量过大引起爆音;多玩家手机声音外放造成的大量回声。 多路声音混叠 游戏中小队语音会有多个玩家同时说话的情况,并且在玩家收听语音的同时,游戏的背景音也不可被去除,因此如何使多路语音清晰传递并且不会造成爆音是该场景下优质混音的评判标准。 最简单的混音方式是简单的时域音频叠加,强度超过最大值削峰为最大值来避免爆音,但人为削峰方式会在破坏音频信号的同时引入额外的噪音;另一种方式是多路声音线性叠加后取平均,该算法实质即把多路音频音量减小,但声音路数多时少时 在移动游戏场景中,手机离人嘴部的距离可能依赖于玩家游戏不同的外部环境而剧烈变化,因此,平滑每个人的声音大小及一个人在不同说话时间的声音大小对语音通话的质量关系重大。

    5.3K411

    Nature子刊:灵活的语音皮质编码可增强与任务相关的声学信息的神经处理

    因此,语音处理需要具有很强的自适应能力和效率。这种效率和适应性是通过早期听觉感觉区域的自下而上的物理输入处理和自上而下的听觉和非听觉(额叶)区域驱动的自上而下的调节机制之间的积极相互作用实现的。 在该研究中,作者使用基于模型的功能磁共振成像,在基本声学特征(频谱变)的表示水平上,检查听觉皮层机制对语音编码的情境依赖性。 例如,对爆破辅音(/p/、/t/和/k/)具有突然的频谱宽度爆发,而语音处理或说话人识别则更依赖于精细的频谱细节和音高处理。 因此,为准确执行这些任务,被试需要专注于在声音中的不同类型的声学信息。 当分别测试每个ROI,仅在前颞上回中发现了该任务的主效应,并且相比音素任务,对说话人判别任务具有更高的分类准确性(F 1,12 = 5.869,P = 0.032;图7b)。 图7 通过MTF函数得到的重建精度在不同ROI对不同任务的预测能力 总结: 总之作者的数据阐明了听觉处理过程中自上而下的预测能力对听觉皮质语音感知调节的神经计算机制,提供了人脑如何在听觉环境中动态的处理语音信息的新的见解

    26030

    CCF-腾讯犀牛鸟基金项目课题介绍(二)——语音技术&自然语言处理技术

    尤其是面对诸如阿尔泰语系的维吾尔语,哈萨克语,柯尔克孜语,塔吉克语,乌尔都语(巴基斯坦),印度语(印度),以及东南亚的各个语言包括越南语,泰语,缅甸语,能够区分这些语种的语音,以及对跨语种下说话人进行辨认 如何在产品中利用人的声音判断人的身份信息,进而应用于支付或安防的安全控制,如何提取说话人的身份、性别、年龄等信息,进而针对用户的喜好进行个性化推荐都是有挑战性的重要课题,其成果将有助于制定产品的战略决策 但在业界实际产品落地语音识别系统在真正实际的环境中仍表现得差强人意,这些环境包括:远场麦克风,例如起居室、会议室、场内录制等;高干扰环境,例如麦克风同时捕捉到电视、音乐声源;多人语音,例如家庭、会议多方谈话等 建议研究方向: 1)基于生成对抗网络的语音和音乐生成。 2)基于生成对抗网络的语音增强、人声分离和音乐分离。 3)基于对抗学习的多领域和说话人自适应技术。 4)基于生成对抗网络的多说话语音识别。 5)提出新的面向翻译场景的人机交互方法,交互式机器翻译方法、融合机器翻译的输入法、触屏交互方法。 6)研究如何利用人机交互的上下文信息,使机器翻译生成的自动译文尽可能符合当前译员的要求。

    24840

    ·声纹锁与声纹识别技术原理解析

    语音生物特征识别,又称说话人识别,俗称声纹识别,是根据说话人的发音生理和行为特征,自动识别说话人身份的一种生物识别方法。 声纹识别所提供的安全性可与其他生物识别技术(:指纹、掌形和虹膜)相媲美,而且语音采集装置造价低廉,只需电话/手机或麦克风即可,无需特殊的设备;它与说话语言无关,与方言腔调无关,不涉及隐私问题,适应人群范围很广 也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,缩小刑侦范围可能需要辨认技术,而银行交易则需要确认技术。 前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。 不同的任务和应用会使用不同的声纹识别技术,缩小刑侦范围可能需要辨认技术,而银行交易则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。

    1.2K20

    谷歌Tacotron进展:使用文字合成的语音更加自然

    这种进步未来会帮助我们建立更好的人机界面,会话助理,有声读物的叙述,新闻阅读器或语音设计软件。 然而,要提供真的像人一样的声音,TTS系统必须学会模仿韵律(prosody),演讲富有表现力的 各种因素的集合,语调,重读和节奏。 这种嵌入捕捉音频的特征,这些特征独立于语音信息和独特的说话者特征,他们包括重读,语调和语速。 当然,只有当参考短语和目标短语的长度和结构相似,这个技术的效果才最好。 ? 令人激动的是,即使当参考音频并不来自Tacotron训练数据中的说话,我们也会观察到韵律传递。 ? 最后,我们的论文表明,GST不可以建模的不仅仅是说话风格。当它受到来自未标记的说话者的嘈杂音频(来自YouTube)的训练,启用了GST的Tacotron学会了用单独的符号表示噪声源和不同的说话者。

    82160

    音位:不仅仅是词汇获取

    关键词: 获取词汇代码 词汇获取 词汇表征 音位 语音形式口语感知 口语分段 口语感知单位 第一部分 定义音位编码 说话者的语言知识有相当一部分是关于单词的知识。 语言单位的边界是语言使用者在言语理解过程中能够识别出词语的音位形式的关键,并且在语言产出中说话者可以将语言单位之间的边界恰当地表达出来(例如重音、汉语中的声调变化,其实说话者在语言产出的词汇产出是按照音节单位产出的 其次,音位背后的关键主张构成了知识如何存储在长记忆中,而不是这些知识如何在言语感知过程中被激活。在基于音位的观点中,长记忆中的每个音位都有离散的(非重叠的)表征,但这些表征可以以梯度的方式激活。 第二部分:对音位心理语言学挑战的反思 音位尺寸(音位单元的大小) 理论学家认为,语音知觉使用的单位比音位更大(音节或半音节)或更小(特征),而不包括音位,不是元音或辅音的大小。 如果说话者只能获取所有音素,那么他们就很难玩这样的游戏:将初始和最终/g/ 音素映射在一起需要对它们进行抽象(即音位表征)。 头韵诗 音位也是描述诗意的声音模式,头韵。

    38110

    CCF-腾讯犀牛鸟基金项目课题介绍(二)——语音技术&自然语言处理技术

    尤其是面对诸如阿尔泰语系的维吾尔语,哈萨克语,柯尔克孜语,塔吉克语,乌尔都语(巴基斯坦),印度语(印度),以及东南亚的各个语言包括越南语,泰语,缅甸语,能够区分这些语种的语音,以及对跨语种下说话人进行辨认 如何在产品中利用人的声音判断人的身份信息,进而应用于支付或安防的安全控制,如何提取说话人的身份、性别、年龄等信息,进而针对用户的喜好进行个性化推荐都是有挑战性的重要课题,其成果将有助于制定产品的战略决策 但在业界实际产品落地语音识别系统在真正实际的环境中仍表现得差强人意,这些环境包括:远场麦克风,例如起居室、会议室、场内录制等;高干扰环境,例如麦克风同时捕捉到电视、音乐声源;多人语音,例如家庭、会议多方谈话等 建议研究方向: 1)基于生成对抗网络的语音和音乐生成。 2)基于生成对抗网络的语音增强、人声分离和音乐分离。 3)基于对抗学习的多领域和说话人自适应技术。 4)基于生成对抗网络的多说话语音识别。 5)提出新的面向翻译场景的人机交互方法,交互式机器翻译方法、融合机器翻译的输入法、触屏交互方法。 6)研究如何利用人机交互的上下文信息,使机器翻译生成的自动译文尽可能符合当前译员的要求。

    556120

    语音合成(Text to Speech | TTS)

    小白版本 语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。 ? 语音合成 做个比较,当机器的“脑子”里想到了一段内容,或者是看到了一段话,知道哪些字应该怎么读: 拆解文字,得到音素的时长、频率变化,就和我们有时拆解文字的偏旁、前后缀来获得文字发音一样 知道哪些字的组合会是一个词 ,将这段内容按照人类容易理解的方式说出来 在说出来的过程中还会结合这个人的说话习惯、发音特色、口音特点等,得到一段人类特性明显的语音。 (Google 已经做出了很想人类的机器声音,查看视频演示) 和人类学说话一样,机器也需要通过大量的语音片段作为“听力材料”,才能学会发音技巧。 用于此目的的计算机系统称为语音计算机或语音合成器,并且可以用软件或硬件产品实现。甲文本到语音(TTS)系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征,语音转录为发音。 查看详情

    1.6K20

    学界 | 百度发布Deep Voice 3:全卷积注意力机制TTS系统

    在这篇论文中,百度研究人员提出了一个新颖的用于语义合成的全卷积架构,可以用于非常大规模的录音数据集,并解决了多个应用基于注意机制的 TTS 系统出现的现实问题。 实验比较了多个信号合成方法合成单个说话语音的质量,其中包括了 WORLD(Morise et al., 2016)、Griffin-Lim(Griffin & Lim, 1984) 和 WaveNet 我们将 Deep Voice 3 用于 TTS 任务的数据集扩展到了史无前例的程度,训练了超过 2000 名说话者,800 余小时的语音。 此外,我们找到了基于注意力的语音合成网络会遇到的常见错误,展示了如何解决它们,并比较了几个不同的波形合成方法。我们也展示了如何在一台单 GPU 服务器上每天实现 1000 万次推断。 延伸阅读 百度提出 Deep Voice:实时的神经语音合成系统 百度提出神经 TTS 技术 Deep Voice 2:支持多说话人的文本转语音 点击「阅读原文」,在PaperWeekly 参与对此论文的讨论

    52170

    DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能

    我们也将证明,同一种网络能够合成其他音频信号,音乐,并能够自动生成沁人心脾的钢琴曲。 会说话的机器 使人们能够与机器自由交谈是人机交互研究领域长久以来的梦想。 过去几年中,深度神经网络的应用(Google语音搜索)为提高计算机理解自然语音的能力带来了革新。 有趣的是,我们发现,与单一训练单个说话者的特征相比,用许多说话者的语言、语音及身份等特征来训练网络使得WaveNet能够更好地模拟单个说话者,这种训练模式暗含着一种迁移学习形式。 通过改变说话者的身份,我们可以用WaveNet以不同的声音表达同一段话语。 同样,我们可以为该模型提供额外的输入信息,情感或口音,使得生成的语音变得更为多样化,更有趣。 当我们采用一个古典钢琴曲数据集来训练WaveNet,它将生成一曲美妙乐章。 WaveNets将为TTS带来无数可能,大体上来讲,有生成音乐和模拟音频两类。

    62770

    业界 | 带有韵律的合成语音:谷歌展示基于Tacotron的新型TTS方法

    Google Assistant、搜索、地图)都内置了这样的功能。 该嵌入捕捉独立于语音信息和特殊的说话者特质的音频特征,比如重音、语调、语速。在推理阶段,我们可以使用这一嵌入执行韵律学迁移,根据一个完全不同的说话者的声音生产语音,但是体现了参考音频的韵律。 ? 令人激动的是,甚至当 Tacotron 训练数据不包含说话者的参考音频,我们也可以观察到韵律迁移。 ? 这是一个很有希望的结果,它为语音交互设计者利用自己的声音自定义语音合成铺平了道路。 (这解释了为什么迁移韵律对相似结构和长度的短语效果最佳)此外,它们在推断需要一个参考音频片段。这引起了一个自然的问题:我们可以开发一个富有表现力的语音模型来缓解这些问题吗? 当从 YouTube 未标记声纹的噪声语音上训练,带有 GST 的 Tacotron 系统能学习表示噪声源,把不同声纹区分成独立 tokens。

    93670

    是谁在说话?谷歌多人语音识别新系统错误率降至2%

    说了「Yes」,这和医生用反问的语气说「Yes?」的含义截然不同。 传统的说话人分类(SD)系统分为两步,第一步是检测声谱中的变化,从而确定说话人何时发生切换;第二步是识别对话中的每个说话人。 为了克服以上缺陷,谷歌一直在致力于改进人声分类系统,去年 11 月发布的利用监督学习的精确在线说话人分类系统(https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html 注意,RNN-T 架构中存在一个反馈回路,其中先前识别出的单词作为输入反馈回来,并且 RNN-T 模型能够整合语言线索,问题的结尾。 这一集成模型可以像语音识别系统一样训练。训练参考的数据包括说话人的语音转录以及区分说话人的标签。例如「作业什么时候上交?」<学生>,「我希望你在明天上课前提交,」<老师>。 谷歌的分析表明,RNN-T 系统的性能提升会影响所有类型的错误率,包括说话人快速转换、断字、语音重叠错误的说话人识别以及低质音频。

    36820

    重建「巴别塔」:谷歌推出全新端到端语音翻译系统

    最近谷歌的一项研究不仅实现了这项黑科技,而且比起电影里的机器人声音,谷歌的模型还可以模仿源说话者的声音生成目标语音。这么说吧,利用这个模型,当你说英文,可以直接输出你 “讲” 的西班牙语。 该系统没有将任务分为多个阶段,因此增加了一些传统级联系统无法比拟的优势,推理速度更快、自然而然地避免识别和翻译之间的复合误差、翻译后更容易保持源语音的声音特征以及更好地处理无需翻译的单词(名字和专有名词 speaker 编码器在 speaker 验证任务上预训练,学习根据简短的示例表达编码说话者的声音特征。根据这种编码调节声谱图解码器,模型可以合成具有说话者相似特征的语音,即使内容为不同的语言。 下面的音频片段展示了 Translatotron 将源说话者的声音迁移到目标语音的效果。在这个示例中,Translatotron 给出的翻译结果比基线级联模型更准确,同时还保留了源说话者的声音特征。 它还能在翻译后的语音中保留源说话者的声音。谷歌希望这项研究可以作为今后端到端语音翻译系统研究的起点。

    30140

    语音直播平台源码打造不同服务场景常用技术解决方案

    3、连麦开黑可自由创建房间,和小伙伴们一起连麦玩游戏,不用退出游戏也能通过语音完成实时同步交流。 2、语音激活检测。语音激活检测的目的即判断一段声音是背景噪音还是语音,该技术往往作为在各类语音后续处理及语音识别技术的基础。在移动游戏无处不在的噪声环境中,语音信号的准确识别尤为关键。 一方面,可以通过对语音信号的识别,去掉没有语音的部分的声音,减少语音传输文件的大小,也减少了其他语音处理方法的CPU内存消耗;另一方面,准确提取语音信号,也可以有效提高语音识别转文字的准确性。 游戏中小队语音会有多个玩家同时说话的情况,并且在玩家收听语音的同时,游戏的背景音也不可被去除,因此如何使多路语音清晰传递并且不会造成爆音是该场景下优质混音的评判标准。 最简单的混音方式是简单的时域音频叠加,强度超过最大值削峰为最大值来避免爆音。因此,在实际使用场景中,更好的方式是根据每路语音的重要性,在混音时候给予相应的权重,以保证混音后各路音频的可识别性。

    32040

    金融语音音频处理学术速递

    年龄)是一个重要的研究领域,有许多基于口语技术的应用。 说话人年龄估计在实现信息和内容的个性化和适合年龄的管理方面有应用。然而,儿童说话人年龄估计的研究尤其具有挑战性,因为缺乏代表发育谱的相关语音数据,并且高信号可变性,特别是使建模复杂化的年龄内可变性。 大多数儿童说话人年龄估计方法直接采用成人语音处理研究的方法。在这篇论文中,我们提出了儿童特有的特征,并将说话人的电话持续时间作为儿童年龄的一个重要生物标志物。 说话人年龄估计在实现信息和内容的个性化和适合年龄的管理方面有应用。然而,儿童说话人年龄估计的研究尤其具有挑战性,因为缺乏代表发育谱的相关语音数据,并且高信号可变性,特别是使建模复杂化的年龄内可变性。 大多数儿童说话人年龄估计方法直接采用成人语音处理研究的方法。在这篇论文中,我们提出了儿童特有的特征,并将说话人的电话持续时间作为儿童年龄的一个重要生物标志物。

    13820

    相关产品

    • 语音消息

      语音消息

      语音消息(Voice Message Service,VMS)沉淀腾讯十年短信服务技术和经验,通过腾讯云提供的语音专线,为 QQ、微信等亿级用户平台和货车帮、摩拜、聚美优品等数千家客户提供语音验证码、语音通知等服务。高到达率、超低延时、秒级触达,支持大容量、高并发,并提供企业专属码号服务。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注腾讯云开发者

      领取腾讯云代金券