学习
实践
活动
专区
工具
TVP
写文章

现在机器视觉这么火那机器听觉被人忽视了吗?为什么?

据我所知,语音识别方向已经有许许多多机器听觉的研究了。而我们实验组的方向主要是做音乐方面的识别,即music transcription或music information retrieval,因为大部分任务可以用传统的信号处理技术就能实现,所以感觉机器听觉也是最近几年才在这个领域内兴起的一种方法。机器听觉以及深度机器听觉火爆的主要原因就是准确率可以大大提高,但同时要求数据库量大且准,而目前音乐方面的数据库只能说……一般般……,许多数据由于涉及版权问题还不是说能拿来用就拿来用的。同时机器听觉也不是万能的,在特殊的音乐识别任务面前,如情绪识别,即使准确率有提高但依然不出众。拿来我师哥Keunwoo Choi刚发的ISMIR文章Transfer learning for music classification and regression tasks的截图举个例子。在以下六个分类任务面前,卷积神经网络提取出的convnet特征会优于MFCC,和state-of-the-art的方法相比也有一定的竞争力。已经在悉尼举办的ICML还专门有一个关于探索音乐的工作坊(machine learning for music discovery workshop),另外在其他关于信号处理的国际会议上比如ICASSP, MLSP,每年都有把机器听觉应用在各个领域的文章,所以说吧,其实还挺火的。另外,对音乐信息检索感兴趣的朋友们欢迎来参加ISMIR 2017会议呀!今年十月末会在苏州办:) 估计又是一次音乐概率统计模型与机器学习技术的交锋。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180209A0OU0A00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券