文献分享｜MUSE：音乐语义序列的视觉分析

文章来源：企鹅号 - 虚拟现实技术及应用

MUSE系统设计的总体流程，左半为序列与特征提取，右半为可视化分析与界面设计

《MUSE: 音乐语义序列的视觉分析》的研究团队来自浙江大学，该团队的主要研究方向是信息可视化与可视化分析。该文章于2022年5月发表于计算机图形学相关的学术期刊《IEEE Transactions on Visualization and Computer Graphics》。文章中描述了一个音乐语义序列可视化分析系统——MUSE。MUSE的设计以及其相关研究属于时间序列语义分析及可视化领域。它采用音乐序列为其研究对象，将分析的结果用多种视图展现，供音乐工作者运用。

语义信息是电子信息领域中区别于Shannon信息的概念，指具有一定意义的信息。时间序列往往富含多维度的信息，例如变化的结构和语义信息等。音乐作为一种流动的艺术，本身可以看作是一个具有数值特征和类型特征的时间序列。业界里对音乐序列的分析存在着多种需求，如序列特征的有效表示，对音乐语义细节的可视化，关联不同层次的信息，对多个音乐序列进行比较等。但是当前有关音乐序列分析的研究大多局限于一个音乐序列；有关分析结果可视化的研究要么只关注音乐作品的语义细节而忽视流派等信息，要么只关注音乐的类型信息而忽视底层的数据细节。MUSE系统填补了这些空白，设计了将多个音乐序列进行关联分析的算法，并在可视化表达时将音乐作品的类型特征与底层细节相结合。这有助于使用者更加直观地分析音乐作品，进行多个音乐作品的比较。

关于音乐可视化

在音乐信息可视化的相关工作中，音乐序列特征向量的提取在音乐推荐、音乐相似度测量、音乐类型分类都得到了广泛应用。基于自然语言处理中生成词向量的Word2Vec模型，Cheng等人提出了Song2Vec模型来计算歌曲中作品之间的相似度，以提高音乐推荐算法的性能。针对音频和文本情态（歌词）分析，Yu等人提出了一种深度多模态相关性学习体系，使用Doc2vec提取歌词的特征向量。但是，上面提到的作品只专注于局部范围内的探索和分析，而忽略了音乐向量化在全局范围内的推广。

音乐可视化技术也可用于表现音乐作品不同层次的信息。Chan等人提出了一种方案，从美学方面展现古典音乐作品的层次结构。Lima等人提出了一个名为SongVis的可视化系统，来将音乐语义描述符进行可视化。Cantareira等人引入了一种名为MoshViz的可视化框架，并使用音符作为计算的基本单位，矩形作为可视化的基本元素，用三个公式来计算矩形高度、矩形颜色和透明度来分别量化音高范围、不稳定程度和音符的数量。

然而，以上有关音乐作品特征可视化的研究要么只从宏观角度分析层次结构，要么从微观角度抽象出音乐特征，而没有将两者相结合。

本研究的贡献在于，将序列比对用于分析音乐作品序列的群体特征研究中，结合机器学习模型和启发式的算法，实现了多维序列数据的交互式分析；设计了MUSE系统，展现一个音乐作品微观层面的细节数据特征以及宏观层面的层次结构特征，并将作品的数据特征和类型特征相结合，同时向使用者展现作品的乐器排列、音高变化、节奏等序列信息，以及流派、体裁等类型信息；在应用界面的设计上进行一定的优化，避免使用者的视觉混乱，做到分析更加全面，界面更加人性化，从而为用户提供更好的音乐探索途径。

算法架构‍‍

该系统的主要流程和组成部分如下：

1. 序列与特征提取

该步骤进行数据预处理以及序列提取，主要分为以下几步：

使用计算机辅助音乐工具Music21清除音乐MIDI数据库中的噪声或重复数据，提取音乐语义序列；

从音乐序列中提取出若干特征进行文本表征；

使用文本表征来训练Doc2Vec模型，用文本分布表示的方法，生成每个音乐序列对应的稠密向量，以便计算机进行计算。

‍2. 可视化分析与界面设计

在该步骤中，使用t-SNE（t-distributed Stochastic Neighbor Embedding，t分布随机邻域嵌入，一种数据降维方法）对音乐序列的向量进行降维并投影到2D平面上以展现分布情况。分布视图可以同时表现音乐作品的流派、乐器分布和特定体系中不同音乐序列的关系；语义细节视图使用矩形排列成的“柱状图”来表达音乐序列的语义细节。另外，流派乐器树图、流派雷达图、序列节点图和并行坐标图等附加视图能够帮助用户理解音乐作品隐含的规律。

关键方法

1. 特征提取和表达

特征提取

特征提取的目的是将音乐进行量化，便于使用机器学习算法进行分析。

首先使用Music21构建每一音乐作品的语义序列和文本表征。Music21可以从音乐中提取音符以及和弦等元素，从而生成包含音符信息的语义序列。

每一音符及和弦都有乐器名、音高值和时值等信息。提取出音乐语义序列之后，将对应的语义信息相组合，以形成可以表征该元素（音符或和弦）的单词，然后利用这些单词来生成音乐序列的文本表征。对于每一音符，规定使用“pitch-type”，“diff-type”，“instrument-pitch-type”三个词组对其进行表征。其中“pitch”指音符的音高，“instrument”指演奏音符的乐器，“diff”指前一音符与现在的音符的音程（音高值之差）。对于和弦，使用“pitch1-pitch2-pitch3”，“diff1-diff2-diff3”以表示和弦中不同音符的音高和音程。最后加上该音符的类型（type，即八分音符或四分音符）形成语义信息的文本表征。

表示一个音符或者和弦语义特征的三种词组

之后，使用Doc2Vec模型从音乐的文本表征中提取特征向量。首先使用多个文本表征及其对应的特征向量来训练Doc2Vec模型，然后再将训练好的模型用于计算给定的音乐序列的特征向量。

经过这一过程，每个音乐的MIDI文件中都可提取出音乐语义序列，这些语义序列又经过文本表征构建和Doc2Vec模型而被抽象为128维特征向量。

特征表达

特征表达的目的是将从音乐序列中提取出的特征向量可视化。将Doc2Vec计算的向量投影到2D平面上，可以更加直观地表现特征向量的分布模式。经过对主成分分析法、多维标度分析法和t分布随机邻域嵌入法等数据降维方法的比较，最终选择t-SNE来实现向量的降维，因为t-SNE降维后的2D视图更加直观和明显。向量投影形成分布视图。

分布视图使用密度等高线组件和寻径组件来帮助使用者发现向量分布规律。

密度等高线用于使用户发现众多特征向量的总体分布。不同于传统的密度等高线，该文章中的组件考虑到了音乐序列的特征向量之间的相似性，在密度等高图的步进平方算法中引入相似性，从而改进了密度等高线的生成算法，以保证相似的音乐序列的点在距离接近的等高线上。

寻径组件便于使用户探究音乐序列在不同模式之间的转换途径。寻径算法采用启发式算法，结合了不同音乐序列点在2D平面上的坐标，以及其特征向量。通过邻域搜索迭代源音乐序列，从而找到不同音乐序列之间的演变路径。

2. 语义表达

语义视图用于展现音乐序列的语义细节，以支持用户进行语义分析和模式比较。语义视图力求在表达足够的音乐序列的语义细节信息的同时，消除视觉混乱。

可视化的基本方法，是用若干矩形排列形成“柱状图”，来表现音乐语义元素（即音符即和弦）的特征。每个矩形的颜色、宽和高分别用于表示乐器种类、演奏时长、音高值（对于和弦来说，音高值为其根音的音高值）。但是由于音乐序列中有大量的语义信息，以及音高和乐器种类的多变性，单纯地用这种方式会导致小长方形的宽度变窄，高度参差不齐，颜色杂乱，很容易造成视觉混乱。

较为原始的音乐序列语义可视化，容易造成视觉混乱

为了优化视觉效果，文献进行了多种尝试。最终采用了“音符集成”的方法消除视觉混乱。“音符集成”即在某一小段时间内的乐器分布进行重新排列和组合后，将一定时间段内的音符合成为一个新元素。新元素的音高为该段时间内音符的平均音高，之后在新元素的基础上构建新的音乐序列，并用矩形排列将其可视化。同时，用户可以与语义视图互动，改变排列总宽度，或将其放大以呈现更多细节。这种方法可以最大程度地缓解视觉混乱，优化用户的体验。

使用音符集成方法实现的语义可视化

在“音符集成”过程中，既要尽可能的缓解视觉混乱，又要尽可能的保留音乐的语义细节，因此需要恰当地确定矩形排列的总宽度。音乐内含信息的复杂程度与音高的变化，同种乐器的分布位置，乐器的数量，序列的数量等因素有关。假设排列总宽度与它们的熵值（即复杂程度）成正比，通过对以上因素进行量化和一系列计算，可以求得较为合理的排列总宽度。

3. UI界面设计

用户交互界面的需求包括序列特征分布的概览、语义信息的表达、多元序列的对比、对语义变化的探索，并且该界面支持交互，以便用户进行模式分析、数据挖掘与语义比较。基于以上的需求，MUSE系统的用户界面设计了分布视图、语义细节视图、流派-乐器树图、流派雷达图、序列节点连接图、平行坐标图。

MUSE系统总界面，分为（a）用户菜单，（b）流派-乐器树图，（c）分布视图，（d）流派雷达图，（e）序列节点连接图，（f）平行坐标图，（g）语义细节视图七大板块

分布视图（上图c）显示特征向量的二维投影、密度等高线以及语义演变路线。图中点代表音乐序列，其颜色表示流派。被相同等高线包围的点对应的序列具有较高的相似性，寻径算法计算出的演变路线揭示了音乐序列之间可能的语义变化趋势。

语义细节视图（上图g）将音乐的原始语义细节可视化。在语义细节视图中，一排矩形表示一个音乐序列，同时每个音乐序列配备了音乐序列号（Music ID）、流派标签和表示不同乐器占比的饼图。矩形的宽、高和颜色分别代表持续时间、平均音高和乐器种类。

流派-乐器树图（上图b）用于呈现流派与乐器之间的联系。不同流派以该图第一列的不同颜色的大圆表示，例如，绿色大圆代表民谣流派，黄色大圆代表古典流派。第二列的小圆代表不同的乐器，这些乐器分为不同的种类，并用不同的色系代表。例如，红色系为弦乐，绿色系为木管乐。同一色系中，颜色的饱和度越高，表示该种乐器在音乐序列中的占比越大，例如下图（a）表示，古典流派音乐序列中，小提琴的占比就大于中提琴。

流派-乐器树图（a）和流派雷达图（b）

流派雷达图（d）用于显示不同音乐序列与不同流派之间的相似性，有助于用户对音乐进行分类和分析。雷达图的六个轴分别为音乐序列识别号、音乐流派、民谣、古典、爵士和摇滚。后四个轴分别显示了该音乐序列与特定流派之间的相似性。相似性的计算采用计算特征向量之间距离的方法。

序列节点连接图（e）用于更加清晰地展示语义细节以及演变趋势。每个节点由一个圆和三层环形图构成。由内而外，中心圆的颜色表示该音乐序列的流派；第一层环形图表示序列中的元素数量；第二层环形图表示和弦与单音的占比；第三层环形图表示音乐序列中不同种类乐器的比例以及音区，其中不同颜色代表不同种类的乐器，弧度表示占比，扇环的外径表示最高音高，内径表示最低音高。不同的节点之间用灰色的实线相连，其宽度正比于序列的相似性。

序列节点连接图

平行坐标图（f）用于展现音乐序列的语义分布模式。平行坐标图有七个维度，分别是音乐ID、流派、乐器、音符类型、音高、起始时间和音符时长。在该图中，每一根折线表示一个音符。起始时间显示音符开始的时间点，音符时长显示音符的长短（如四分音符、十六分音符等）。

此外，MUSE支持用户与界面的多种互动方式，用户可以通过菜单（a）进行交互，也可以通过点击以上视图中的成分进行放大、扩展、删除等操作。

案例分析与验证

为了验证MUSE系统的有效性，研究者收集了涵盖5837个音乐序列的数据库，包含了音乐ID、流派、乐器、音符、和弦、时长等信息。基于该数据库进行了如下两个实验。

1. 语义分布模式探究

用MUSE以及数据库进行对于爵士、古典、民谣、摇滚四种流派进行语义分布模式的探究。

首先基于旋律和乐器构建所有音乐序列的语义特征向量，并投影到散点图上（a），可以看出，民谣、古典与摇滚的序列点都出现了集群分布的现象，但是爵士音乐序列的特征向量较为分散。为了探究造成其特征向量分散的原因是旋律多样还是乐器丰富，研究者基于单纯的乐器语义与旋律语义分别构建了两张散点图（b）和（c）。在基于乐器语义绘制的散点图（b）中，增加了表示高频使用乐器热图，可以看出在爵士乐中钢琴的使用频率普遍相当高，因而乐器种类不是造成爵士乐特征向量分散的主要原因。

利用分布视图探究音乐的语义分布模式

在基于旋律语义绘制的图（c）中，可以看出爵士乐的序列点与其他音乐流派不同，仍然较为分散。为了排除由于个别爵士乐序列音调较高导致的特征分散，又基于旋律差异绘制了分布图（d），可以看出爵士乐的序列点仍然较为分散。因而可以确定，丰富多变的旋律是造成爵士音乐序列分布模式较分散的主要原因。爵士乐涉及多国、多地区的文化，又具有较为自由的曲式结构、节奏和标准，与分布图的分析相符。

2. 音乐语义变化趋势的研究

用MUSE和数据库进行民谣和古典流派音乐语义变化趋势的研究。如图9中，古典区域a和民谣区域b的密度等高线相连，预示着两区域具有较大联系，可能存在语义演变趋势。

利用分部视图的密度等高线和寻径组件探究音乐语义的演变趋势

为了证明这一猜想，作者使用了寻径算法，找出了可能的演变途径为以下编号的音乐序列：#144-#2546-#299-#335-#1745-#2865-#3868-#2651。这八个序列中，前四个属于古典流派，其余属于民谣流派。从序列节点连接图中，可以发现#144，#2546，#299，#335的乐器语义中只有钢琴，而其余序列的乐器语义包含多种乐器。从连线宽度看出，#1745与相邻节点的相似度最低，且流派雷达图显示，其与民谣流派和古典流派的相似度都很低，是模式演变中的转折点。

使用序列节点连接图（a），流派雷达图（b），语义细节图（c）进一步探究演变情况

进一步深入的研究#144到#299的演变路线和#2865到#2651的演变路线。语义细节视图显示，从#2865到#2651的演变过程中，乐器的种类逐渐地丰富。而平行坐标图显示，从#144到#299的演变过程中，音高值在逐渐降低，音符的时长变长，意味着音乐由轻快向低缓演变。

根据以上结果，在音乐学习的过程中，钢琴初学者可以按照#299-#2546-#144的路线以逐渐掌握复杂的旋律，乐队演奏者则可以按照#2865-#2546-#2651的路线来训练自己的合奏能力。

结论

MUSE系统实现了音乐分析中关于序列特征有效表示、音乐语义细节可视化、比较分析不同序列等多种需求。利用数据来表现音乐的特点是一项对音乐分析和研究十分有效的工作。在用户调研中，普通用户和音乐专家也给予了该系统较为积极的评价。但是，本系统仍具有不足和待努力的方向。

1. 系统的不足

机器学习的方法难以避免不确定性：在从音乐语义序列的文本表示中提取出特征向量的过程中，以及在高维向量的低维投影中用到了机器学习。由于机器学习的方法具有黑箱特性，机理不明确，因此不同的音乐序列有可能得到相同的特征向量，导致分布视图的不准确。在机器学习的算法中导入修正步骤，或者设计不同层次的可视化，都可以减小机器学习算法造成的不确定性。

可拓展性受限：在MUSE的评价中，专家建议应用更大的数据库以展现更多的音乐细节。然而屏幕的像素有限，能够编码的颜色也有限，因而可以表示的语义细节、元素数量也有限。在需要可视化更多音乐语义信息时，MUSE的表达和分析能力会受到限制，需要寻找更好的可视化形式。

2. 未来发展方向

音乐理论的深入：MUSE对于音乐的量化和分析只局限于大致的流派、乐器的分布和比例和音高、时长等较为表层的方面，而没有细化到各个流派的细节、配器法或者和弦走向、调式分析等更加细节的乐理内容。如何更加深入地结合乐理的知识提取音乐的数据，增强系统的专业性，扩大目标用户范围，是未来可以努力的方向。

情感分析的加入：音乐作为一种艺术，是表达作者情感的方式。分析音乐作品的情感有助于更好地了解作品本身以及作者，业界内也存在相关的需求。对于音乐的分析也不应该只局限于音乐序列中乐器、音调等表层的信息，而应该深入到音乐作品的情感分析之中。若能将现有研究成果中的音乐情感分析模型结合到MUSE系统中，或者开发出新的音乐情感分析模型，将能够拓宽MUSE系统的应用领域。

应用领域的拓展：MUSE是一个音乐序列分析系统，然而在科学、工程以及生活中，还有许多于音乐序列相似的序列，如基因、蛋白质、事件序列等，对于具有时间特征或者类型标签的序列，都可以用类似的方法进行特征提取与可视化。要实现不同领域的应用，仍然需要更多的设计和改进。

面向不同用户群体的系统界面优化：虽然MUSE系统的用户界面已经展示了详细的信息，并且具有良好的用户互动功能，然而对于缺乏视觉分析和图像处理相关知识的用户来说，该界面的部分模块仍然比较复杂，难以理解。此外，对于只关心若干音乐语义信息的用户，同时展示多个语义信息容易造成信息过量。可以改进系统界面，添加修改默认设置的功能以展示特定的信息，并设计简洁版、标准版等不同复杂程度的系统界面，以供需求不同的用户使用。另外，设计相关的软件教学过程也有助于该系统的推广。

本文部分图片和文字来自公开文献

如有使用不当之处请私信告知

发表于: 2022-12-242022-12-24 15:36:22
原文链接：https://kuaibao.qq.com/s/20221224A03VI800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

文献分享｜MUSE：音乐语义序列的视觉分析

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐