我想从事一个项目,在这个项目中,我必须根据在线视听数据的音频内容对其进行分割和分类,即音频数据的不同部分将根据其音频内容被分割和分类为静音、音乐、语音、speech+background音乐等。
我知道,我必须从视听数据中获取音频部分,并提取零交叉、谱峰等特征,并找出片段边界,以便对音频数据进行分割。
但我在一开始就迷失了。
我不知道如何开始这个项目。该软件输出的是不同类别的音像数据片段,如沉默、语音、音乐等。
如果有人让我知道会很有帮助
我没有数字信号处理的背景。如果我能得到一些指导
发布于 2012-02-27 08:43:52
我建议研究像GStreamer这样的多媒体框架。它是跨平台的,但在它起源于Linux的Linux上却是最容易入门的。它已经提供了所有类型的插件来主持、解码音频和视频。它还有几个分析器(例如用于音频和语音活动检测的电平和频谱分析器)。这可能是你实验的一个很好的起点。Gstreamer本身是用C编写的,但是应用程序可以使用语言绑定到python、perl、c#、c++、java、.
https://stackoverflow.com/questions/9138997
复制相似问题