Deezer的AI可以根据情绪和强度对歌曲进行分类

人类的耳朵可以毫不费力地消除歌曲的情绪,例如,Eric Clapton的“天堂之泪”中的忧郁症,或者Led Zeppelin的“Whole Lotta Love ”中的激情然而,机器确实如此。为了让后者更像前者,Deezer的研究人员开发了一种人工智能系统,可以将某些音轨与情绪联系起来。

他们在预印本服务器Arxiv.org上发表的一篇新论文(“ 基于音频歌词与深度神经网络的音乐情绪检测 ”)中描述了他们的工作。

“自我音乐情绪检测一直是一个活跃的研究领域......在过去的二十年里,”他们写道。“它包括自动确定听音乐时感受到的情绪。在这项工作中,我们专注于基于音频信号和音轨歌词的多模态情绪检测任务。“

该团队引用心理学研究表明,在分析音乐情绪时,歌词“应该共同考虑”,设计了一个神经网络,他们分别提供音频信号和word2vec嵌入训练160万首歌词。为了教它衡量歌曲的情感共鸣,他们选择了百万歌数据集(MSD),一个与LastFM标签相关的音轨数据库,其中一些与情绪有关,以及14,000个英语单词,其中嵌入的价值范围从负数到积极的)和唤醒(从冷静到精力充沛),他们用来选择上述训练标签。

由于MSD不包含音频信号和歌词,因此团队使用歌曲元数据将其映射到Deezer的目录,特别是歌曲标题,艺术家姓名和专辑标题。并且他们在相对于歌词长度的相应位置从歌词中提取单词。

大约60%的结果数据集,总共18,644个注释轨道,用于训练模型,其中40%用于验证和测试。

与利用与情绪相关的词汇的经典系统相比,深度学习模型在唤醒检测方面更优越。当涉及到价格检测时,结果更像是一个混合包 - 研究人员指出,深度学习中基于歌词的方法往往表现不佳,但它仍然设法与基于特征工程的方法的性能相匹配。

研究人员写道:“这种性能提升似乎是我们的模型能够揭示并使用音频和歌词之间的中级相关性的结果,特别是在预测效价方面。” “详细研究和优化用于音乐情绪检测的ConvNets提供了暂时定位负责轨道效价和唤醒的区域的机会。”

他们建议随后的研究可以使用带有标签的数据库来指示轨道情绪的模糊程度,或利用在大量未标记数据上训练的无监督模型。他们认为,这两种方法都将“显着提高”未来模型的预测准确性。

  • 发表于:
  • 原文链接https://venturebeat.com/2018/09/20/deezers-ai-can-classify-songs-by-mood-and-intensity/
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券