我想实现一个神经网络,它将能够识别从0到20的英语口语数字,以及两到三个其他单音节单词。然后我将使用AI来控制一个简单的游戏。我在问你一些建议。你认为这有可能吗?
是否有可能并且相对容易地使它适用于一个人,许多人有接近母语口音的人,许多人有很多不同的口音?
我应该从语音中提取哪些数据来为网络输入;长度、音量、随时间变化的分量频率或其他什么?我计划分别识别每个单词。
我应该首先检查哪些网络架构。这里有谁以前做过类似的事情吗?
您在这里还看到了哪些其他挑战?
如果有任何进展,我会通知你的:)谢谢!
发布于 2019-12-17 19:00:26
我相信建立一个神经网络来做这些事情是相当容易的,已经完成了更复杂的事情。我建议不要使用音量或频率来测量,因为这样你就可以训练AI识别特定于你的测试数据集的东西,而音量将取决于许多因素,比如一个人的声音有多大,他们的麦克风是好是坏。频率将取决于他们是男性还是女性。成人或儿童。我建议关注平均长度,因为无论你怎么说,不管你说得多大声,20总是需要更长的时间才能说出,然后它就会说出1,AI会根据这一点进行学习。
编辑:我还想说的是,不要对体积进行采样,而要对振幅进行测试。尝试找出音频中的峰值音量发生的位置,因为这将区分某些元音。"One“在作品开始时有一个峰值,而三个峰值向上,因为"ee”的结尾比"th“的音高更高。
因此,在神经网络中,这两个因素将被算作两个独立的神经元。1表示长度,1表示样本中振幅最大的位置。
https://stackoverflow.com/questions/59372689
复制相似问题