我有一个音频文件,两个人的电话通话录音,我需要自动分离两个扬声器的声音。我是语音识别的新手,我看过python的wave模块,但没有找到任何有用的信息。
请帮助一下如何开始。另外,请向我推荐免费的python库,这将帮助我解决这个问题。
发布于 2013-06-15 02:24:36
分离说话人的任务不是语音识别任务,而是说话人识别任务。在语音通信中,这项任务也被称为说话人二元化。Python提供了几个用于说话人二元化和说话人识别的包:
如果您不限于使用Python,还可以使用其他工具:
Speaker recognition setup in Kaldi。包括被称为X矢量的基于DNN的现有技术的I矢量。
发布于 2011-09-05 22:15:18
从numpy开始,我会把光谱图(基本上是滚动FFT)看作是区分录音中不同声音的一种好方法。
下面是Matplotlib中的语谱图函数
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
如果你刚刚开始使用Windows平台,我推荐你使用Python(x,y)。
发布于 2013-06-15 00:20:36
https://stackoverflow.com/questions/7309219
复制相似问题