问Python说话人识别
EN

Stack Overflow用户

提问于 2011-09-05 22:07:41

回答 4查看 24.2K关注 0票数 21

我有一个音频文件，两个人的电话通话录音，我需要自动分离两个扬声器的声音。我是语音识别的新手，我看过python的wave模块，但没有找到任何有用的信息。

请帮助一下如何开始。另外，请向我推荐免费的python库，这将帮助我解决这个问题。

python

voice-recognition

speech

回答 4

Stack Overflow用户

发布于 2013-06-15 02:24:36

分离说话人的任务不是语音识别任务，而是说话人识别任务。在语音通信中，这项任务也被称为说话人二元化。Python提供了几个用于说话人二元化和说话人识别的包：

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

如果您不限于使用Python，还可以使用其他工具：

LIUM speaker diarization

Speaker recognition setup in Kaldi。包括被称为X矢量的基于DNN的现有技术的I矢量。

票数 16

Stack Overflow用户

发布于 2011-09-05 22:15:18

从numpy开始，我会把光谱图(基本上是滚动FFT)看作是区分录音中不同声音的一种好方法。

下面是Matplotlib中的语谱图函数

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

如果你刚刚开始使用Windows平台，我推荐你使用Python(x,y)。

票数 4

Stack Overflow用户

发布于 2013-06-15 00:20:36

查看sciKits对话框：http://projects.scipy.org/scikits/wiki/Talkbox

不幸的是，教程非常有限：http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7309219

复制

相似问题

问Python说话人识别
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python说话人识别EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python说话人识别
EN