一年一度的国际知名会议2021论文评选结果已经相继揭晓,我们的论文《Large-scale singer recognition using deep metric learning: an experimental study》成功被国际神经网络联合大会 (International Joint Conference on Neural Networks,简称IJCNN)收录,《Learning Audio Embeddings with User Listening Data for Content-based Music Recommendation》成功被顶级会议ICASSP 2021(International Conference on Acoustics, Speech and Signal Processing 2021)收录,这是TME首次参与IJCNN和ICASSP 会议投递,在音乐识别领域研究成果获得全球专业评委的认可,开创音乐识别探索新征程。
♬ 喜报♬
腾讯音乐多媒体研发中心在2020年投中一篇INTERSPEECH,2021年再创辉煌分别喜中ICASSP和IJCNN两大会议。
借助平台海量的歌曲信息,我们使用端到端的深度神经网络开发了一套能有效表征歌手音色的模型系统,相关成果已经接受在IJCNN会议。
得益于深度学习在音乐科技中的应用和平台独有的数据优势,我们也开发一了套针对用户个人偏好的个性化推荐算法,成果融合音频内容特征和用户信息的表征(User Audio Embeding,UAE),相关成果也已经接收在今年的ICASSP会议。
音乐识别的场景和类别众多,以下按使用到的算法类别分为传统特征匹配和深度学习算法匹配这两大类。传统特征匹配:顾名思义,即使用传统音频特征对音乐音频信号进行表征、建库、以及检索;深度学习算法:采用主流DNN技术提取音频特征进行匹配和检索。
腾讯音乐多媒体研发中心的近期论文发表如下:
IJCNN:国际神经网络联合大会(International Joint Conference on Neural Networks,简称IJCNN),是由国际神经网络协会及IEEE计算智能协会联合主办的神经网络领域的国际学术会议,迄今已有30多年历史,是神经网络领域的重要会议(Rank A, CCF-C)。
ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议(Rank A, CCF-B)。
INTERSPEECH作为由国际语音通信协会ISCA组织的语音研究领域的顶级会议,是全球最大的综合性语音信号处理领域的科技盛会之一(Rank A, CCF-C)。
听歌识曲、哼唱识别作为音频识别中的传统落地场景,是我们继续努力、不断提升的阵地。同时我们也不断开拓、探索和落地新的音频识别场景,例如翻唱识别、音色识别等。未来我们也将积极探索音频识别和歌词识别、MIR音乐信息理解的结合,实现不断的突破。
最后尾声
上文回顾:
多媒体研发中心隶属于腾讯音乐娱乐集团(TME)的QQ音乐业务线,位于深圳总部,面向QQ音乐和全民k歌、探歌、MOO等产品的多媒体与AI应用型技术研究与落地。音频团队主要负责的产品功能包括听歌识曲、哼唱识别、曲库标签与知识图谱、推荐系统中音频特征、曲库音质评估与提升、电台听书、跑步电台、以及新技术扩展等。音频研究方向包括:音频指纹、哼唱识别、翻唱识别等检索类,歌手音色、乐器音色等声纹识别类,主旋律与MIDI提取、副歌提取、流派识别、BPM识别、节奏节拍识别等MIR研究类;声源分离、音质评估、音质分级、超分辨率音质复原等声学技术类;歌词时间戳技术、歌词识别与歌声ASR、语种识别等歌词与语言识别类;语音合成TTS、歌声音色迁移等音乐分析与合成类技术。同时结合信号处理、机器学习与深度学习等前沿技术,团队在不断探索新的研究课题,持续创新与突破。
背靠QQ音乐和全民K歌两大APP,我们有着庞大的用户群体、曲库音视频文件、歌曲歌词数据、歌手数据、曲谱数据、用户听歌与唱歌流水数据、歌曲版权等等。团队目前申请的专利数达到300篇以上,获得公司级技术突破奖与业务突破奖、优秀团队奖等十余项,参与国际比赛与国际论文发表十余项。目前团队正在持续发展壮大,开拓全新的更具备突破性的多媒体技术领域,持续欢迎社招和校招候选人以及实习生的加入。可关注“QQ音乐多媒体研发中心”公众号查看团队研究内容介绍,或在后台回复“JD”获取最新招聘信息或者联系(ethanzhao@tencent.com)。