这是一种用于钢琴的连续笔记识别的长短诗记忆投影的循环神经网络结构。长短时记忆网络(LSTM)是一种与时间序列相关的循环神经网络(RNN),在语音识别和图像识别方面取得了良好的效果。它具有较好的性能,最佳识别率可达99.8%。
我们基于北京林业大学音乐库进行了实验,提出的结构能有利于减少训练时间,而且受益于投影层。使用它的原因是在良好的性能基础上,识别率为99.8%。
在本文中,我们使用了神经网络结构来识别连续的音符。找到了迭代次数最少的、最适合于钢琴的连续音符识别的方法。
未来,我们将使用LSTM,LSTMP和DLSTM来识别更复杂的连续和弦音乐,例如钢琴音乐,小提琴音乐甚至交响乐,这将大大改善音乐机器人的发展。
原文:Yukang Jia, Zhicheng Wu, Yanyan Xu(*), Dengfeng Ke, Kaile Su. LongShort-Term Memory Projection Recurrent Neural Network Architectures for Piano’sContinuous Note Recognition. J. Robotics 2017: 2061827:1-2061827:7 (2017)。
贾宇康
北京林业大学
人工智能研究所研究员
AI-Union联盟成员
北京林业大学
人工智能研究所
北京林业大学信息学院于2001年成立,其历史可以追溯到1984年成立的计算中心和1986年成立的国内第一个林业信息管理专业,是一个发展迅速、年轻而有朝气的学院。学院秉承“结构、特色、质量、创新”的八字方针,紧随国家战略脚步,全面部署人工智能各领域研究。本系列内容由北京林业大学AI研究所徐艳艳所长,柯登峰老师,傅得强硕士,贾宇康、王岩硕士等研究员提供指导。
我们将在后续的系列中继续为您带来林大专家们在声纹识别领域的突破性研究成果,如果您有合作意向或者想更深入了解,请联系我们!
如果你对声波识别有想了解的内容,欢迎留言告诉我们,来自联盟的学者将您带来最专业的解读。
领取 专属20元代金券
Get大咖技术交流圈