首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在说话人识别中,话语长度是如何影响神经网络的?

在说话人识别中,话语长度是如何影响神经网络的?
EN

Stack Overflow用户
提问于 2017-01-04 04:26:20
回答 2查看 448关注 0票数 5

我正在学习神经网络,并试图用tensorflow创建说话人识别系统。我想知道话语长度是如何影响神经网络的。例如,我有1000个相同长度的不同录音和1000个不同长度的录音。那么,从理论上讲,神经网络如何处理这些数据呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?

EN

回答 2

Stack Overflow用户

发布于 2017-01-17 00:41:14

我假设你的问题可以重新表述为神经网络如何处理不同长度的音频?

技巧是将任意大小的信号转换为固定大小的特征向量序列。请参阅我的答案herehere

票数 2
EN

Stack Overflow用户

发布于 2017-01-05 01:16:32

这取决于神经网络的类型。在设计时,你通常会指定输入神经元的数量,因此不能给它提供任意长度的数据。在较长序列的情况下,您必须裁剪数据或使用滑动窗口。

但是,一些神经网络允许您处理任意输入序列,例如Recurrent Neural Network。后者似乎是解决您的问题的一个非常好的候选者。Here是一篇很好的文章,它描述了一种称为Long Short-Term Memory的特定类型的RNN的实现,它可以很好地与语音识别一起工作。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41451757

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档