首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Python说话人识别

Python说话人识别
EN

Stack Overflow用户
提问于 2011-09-05 22:07:41
回答 4查看 24.2K关注 0票数 21

我有一个音频文件,两个人的电话通话录音,我需要自动分离两个扬声器的声音。我是语音识别的新手,我看过python的wave模块,但没有找到任何有用的信息。

请帮助一下如何开始。另外,请向我推荐免费的python库,这将帮助我解决这个问题。

EN

回答 4

Stack Overflow用户

发布于 2013-06-15 02:24:36

分离说话人的任务不是语音识别任务,而是说话人识别任务。在语音通信中,这项任务也被称为说话人二元化。Python提供了几个用于说话人二元化和说话人识别的包:

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

如果您不限于使用Python,还可以使用其他工具:

LIUM speaker diarization

Speaker recognition setup in Kaldi。包括被称为X矢量的基于DNN的现有技术的I矢量。

票数 16
EN

Stack Overflow用户

发布于 2011-09-05 22:15:18

从numpy开始,我会把光谱图(基本上是滚动FFT)看作是区分录音中不同声音的一种好方法。

下面是Matplotlib中的语谱图函数

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

如果你刚刚开始使用Windows平台,我推荐你使用Python(x,y)

票数 4
EN

Stack Overflow用户

发布于 2013-06-15 00:20:36

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7309219

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档