我正在学习神经网络,并试图用tensorflow创建说话人识别系统。我想知道话语长度是如何影响神经网络的。例如,我有1000个相同长度的不同录音和1000个不同长度的录音。那么,从理论上讲,神经网络如何处理这些数据呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?
发布于 2017-01-17 00:41:14
发布于 2017-01-05 01:16:32
这取决于神经网络的类型。在设计时,你通常会指定输入神经元的数量,因此不能给它提供任意长度的数据。在较长序列的情况下,您必须裁剪数据或使用滑动窗口。
但是,一些神经网络允许您处理任意输入序列,例如Recurrent Neural Network。后者似乎是解决您的问题的一个非常好的候选者。Here是一篇很好的文章,它描述了一种称为Long Short-Term Memory的特定类型的RNN的实现,它可以很好地与语音识别一起工作。
https://stackoverflow.com/questions/41451757
复制相似问题