首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

业界 | 百度提出Deep Speaker:可用于端到端的大规模说话人识别

我们还发现 Deep Speaker 可以学习到独立于语言的特征。当仅在普通话语音上训练时,Deep Speaker 在英语的验证和识别任务上分别实现了 5.57% 的 EER 和 88% 的准确度。...有关 Deep Speaker 模型、训练技术和实验结果的详情,请参阅论文,以下是该论文的摘要: 论文:Deep Speaker:一种端到端神经说话人嵌入系统(Deep Speaker: an End-to-End...Neural Speaker Embedding System) ?...我们提出了 Deep Speaker,这是一个基于神经网络的说话人嵌入系统(neural speaker embedding system),这个系统可以将话语映射到一个超平面,从而可以通过余弦相似度来衡量说话人的相似度...图 1:Deep Speaker 架构示意图 ?

1.1K80

3秒克隆你的声音,微软推出DALL-E表亲VALL-E

在零样本场景中,speaker 的相似性和语音自然度对于未知的 speaker 来说会急剧下降。...为了解决零场景 TTS 问题,现有的工作利用 speaker 自适应和 speaker 编码法,但需要额外的微调、复杂的预设计功能或重型结构工程。...值得注意的是,现有的 TTS 系统通知会使用数十小时的单 speaker 数据或数百小时的多 speaker 数据进行训练,这比 VALL-E 使用的数据要小数百倍。...与其他量化方法相比,音频编解码器具有以下优点: 它包含丰富的 speaker 信息和声学信息,与 HuBERT 编码相比,可以在重构中保持 speaker 特征一致。...VCTK 评估 研究者在由 108 个 speaker 组成的 VCTK 上评估了模型,所有 speaker 均是在训练时没有见过的。

1.5K20

【NLP】自然语言处理学习笔记(二)语音转换

另一种解决方式是保持Speaker Encoder不变,在Content Encoder后面加上一个Speaker Classifier作为鉴别器(Discriminator)。...在训练Content Encoder的过程中,同时训练Speaker Classifer,形成对抗结构。如果Content Encoder的效果好,那么Speaker Classifer的效果就越差。...利用Speaker Classifer的效果来反推Content Encoder的效果,因此目标是Speaker Classifer的准确率越低越好。...AdaIN的步骤是先将Decoder出来的结果标准化(IN),然后再将Speaker Encoder的结果用下图中的公式进行添加。...2nd Stage Training是保持训练场景和测试场景一致,即Content Encoder和Speaker Encoder是不同的说话人(下图中Speaker Encoder简化成了独热码)。

66720
领券