前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >音乐识别探索之路|音色识别亮相IJCNN,UAE惊艳ICASSP

音乐识别探索之路|音色识别亮相IJCNN,UAE惊艳ICASSP

作者头像
QQ音乐技术团队
发布2021-04-26 16:40:08
4.9K0
发布2021-04-26 16:40:08
举报
文章被收录于专栏:QQ音乐技术团队的专栏

一年一度的国际知名会议2021论文评选结果已经相继揭晓,我们的论文《Large-scale singer recognition using deep metric learning: an experimental study》成功被国际神经网络联合大会 (International Joint Conference on Neural Networks,简称IJCNN)收录,《Learning Audio Embeddings with User Listening Data for Content-based Music Recommendation》成功被顶级会议ICASSP 2021(International Conference on Acoustics, Speech and Signal Processing 2021)收录,这是TME首次参与IJCNN和ICASSP 会议投递,在音乐识别领域研究成果获得全球专业评委的认可,开创音乐识别探索新征程。

♬ 喜报♬

腾讯音乐多媒体研发中心在2020年投中一篇INTERSPEECH,2021年再创辉煌分别喜中ICASSP和IJCNN两大会议

借助平台海量的歌曲信息,我们使用端到端的深度神经网络开发了一套能有效表征歌手音色的模型系统,相关成果已经接受在IJCNN会议

得益于深度学习在音乐科技中的应用和平台独有的数据优势,我们也开发一了套针对用户个人偏好的个性化推荐算法,成果融合音频内容特征和用户信息的表征(User Audio Embeding,UAE),相关成果也已经接收在今年的ICASSP会议


『音乐识别种类』

音乐识别的场景和类别众多,以下按使用到的算法类别分为传统特征匹配和深度学习算法匹配这两大类。传统特征匹配:顾名思义,即使用传统音频特征对音乐音频信号进行表征、建库、以及检索;深度学习算法:采用主流DNN技术提取音频特征进行匹配和检索。

  • 听歌识曲:听歌识曲主要基于音频指纹特征去匹配。音频指纹,顾名思义,就像是一首歌的指纹。我们这里采用业界主流的“Landmark”的指纹算法,然后通过hash检索的方式进行大规模实时检索匹配。通过我们在算法和工程上的持续打磨,我们的听歌识曲服务能提供给用户快速、准确的识别体验。
  • 更多听歌识曲相关的科普,欢迎阅读听歌识曲科普文 ☞ 链接1: QQ音乐听歌识曲系列之五 ☞ 链接2:QQ音乐听歌识曲系列之四 ☞ 链接3:QQ音乐听歌识曲系列之三 ☞ 链接4:QQ音乐听歌识曲系列之二 ☞ 链接5:QQ音乐听歌识曲系列之一
  • 哼唱识别:主流的哼唱识别是使用MIDI提取技术,将一个音频片段按旋律信息表征出来。实际业务中需要对用户哼唱的音高准确度和速率上有一定的容错率,因此业界普遍采用Dynamic Time Warping, DTW)的方式。这种算法作为哼唱识别的主流方法被广泛使用。我们也同时在探索一些更新的基于深度学习的哼唱识别方案,期待能进一步提升用户体验。
  • 翻唱识别:翻唱识别可以称之为下一代听歌识曲技术。时常会在生活中听到一些演艺的live版本、以及录制到一些现场翻唱的歌曲片段。这时候基于传统音频指纹的严格匹配方式通常难以有满意的结果。为此,我们自研开发了一套翻唱识别技术。借助曲库海量的音频数据,我们使用深度神经网络将每首歌曲不同片段的旋律特征表征出来。这种学习到的特征能排除歌手、音高、乐器等一些差异因素的干扰、着力表征旋律信息,能成功将一些翻唱作品片段匹配到原始的作品片段。因此,翻唱识别技术是作为听歌识曲的一个非常重要的补充和延伸。QQ音乐是业界首家是业界首家在该场景成功落地的音乐平台,相关算法已提交专利并且在准备paper中。
  • 歌声音色识别:歌声的声纹识别很自然能借鉴一些语音说话人识别的方法,例如时兴的使用embedding技术表征说话人的音色特征。但使用在歌曲中时,由于专业歌手的唱法多变(宽广的音域、假音等等)以及对人声后期特效(混响、电音等),这给对歌手/明星的音色表征带去极大的难度。经过我们调研,业界最新的歌手识别的指标大大落后于主流说话人声纹识别的表现。借助平台海量的歌曲信息,我们使用端到端的深度神经网络开发了一套能有效表征歌手音色的模型系统,相关成果已经接受在IJCNN会议[1]。下图是我们的一些歌声声纹识别的应用案例,我们将在落地场景上继续不断探索。

『论文发表』

腾讯音乐多媒体研发中心的近期论文发表如下:

  1. "Large-scale singer recognition using deep metric learning: an experimental study", IJCNN 2021
  2. "Learning Audio Embeddings with User Listening Data for Content-based Music Recommendation." ICASSP 2021.
  3. "Phase-aware music super-resolution using generative adversarial networks" INTERSPEECH 2020

IJCNN:国际神经网络联合大会(International Joint Conference on Neural Networks,简称IJCNN),是由国际神经网络协会及IEEE计算智能协会联合主办的神经网络领域的国际学术会议,迄今已有30多年历史,是神经网络领域的重要会议(Rank A, CCF-C)。

ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议(Rank A, CCF-B)。

INTERSPEECH作为由国际语音通信协会ISCA组织的语音研究领域的顶级会议,是全球最大的综合性语音信号处理领域的科技盛会之一(Rank A, CCF-C)。


『未来展望』

听歌识曲、哼唱识别作为音频识别中的传统落地场景,是我们继续努力、不断提升的阵地。同时我们也不断开拓、探索和落地新的音频识别场景,例如翻唱识别、音色识别等。未来我们也将积极探索音频识别和歌词识别、MIR音乐信息理解的结合,实现不断的突破。


最后尾声

上文回顾:

多媒体研发中心隶属于腾讯音乐娱乐集团(TME)的QQ音乐业务线,位于深圳总部,面向QQ音乐和全民k歌、探歌、MOO等产品的多媒体与AI应用型技术研究与落地。音频团队主要负责的产品功能包括听歌识曲、哼唱识别、曲库标签与知识图谱、推荐系统中音频特征、曲库音质评估与提升、电台听书、跑步电台、以及新技术扩展等。音频研究方向包括:音频指纹、哼唱识别、翻唱识别等检索类,歌手音色、乐器音色等声纹识别类,主旋律与MIDI提取、副歌提取、流派识别、BPM识别、节奏节拍识别等MIR研究类;声源分离、音质评估、音质分级、超分辨率音质复原等声学技术类;歌词时间戳技术、歌词识别与歌声ASR、语种识别等歌词与语言识别类;语音合成TTS、歌声音色迁移等音乐分析与合成类技术。同时结合信号处理、机器学习与深度学习等前沿技术,团队在不断探索新的研究课题,持续创新与突破。

背靠QQ音乐和全民K歌两大APP,我们有着庞大的用户群体、曲库音视频文件、歌曲歌词数据、歌手数据、曲谱数据、用户听歌与唱歌流水数据、歌曲版权等等。团队目前申请的专利数达到300篇以上,获得公司级技术突破奖与业务突破奖、优秀团队奖等十余项,参与国际比赛与国际论文发表十余项。目前团队正在持续发展壮大,开拓全新的更具备突破性的多媒体技术领域,持续欢迎社招和校招候选人以及实习生的加入。可关注“QQ音乐多媒体研发中心”公众号查看团队研究内容介绍,或在后台回复“JD”获取最新招聘信息或者联系(ethanzhao@tencent.com)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯音乐技术团队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 『音乐识别种类』
  • 『论文发表』
  • 『未来展望』
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档