用深度学习预测Phish乐队接下来唱什么歌（下）

AiTechYun

发布于 2019-12-05 15:33:23

5660

发布于 2019-12-05 15:33:23

文章被收录于专栏：ATYUN订阅号

编辑 | sunlei 发布 | ATYUN订阅号

下面我们继续做一个小实验：

实验

迭代1-“撒网”

在锁定模型组件的情况下，我通过对以下超参数的各种设置进行网格搜索来实现广域网：

体系结构:一个LSTM层与两个LSTM层

序列长度:模型需要多长序列才能正确地知道接下来会出现什么歌曲?初始设置为25、50、100、150和250首歌曲。但请记住，这里的权衡是，序列越长，可用的训练示例数量就越少……

LSTM单元的数量:我在50到100之间切换。

LSTM前Dropout：0%-70%（增量）

LSTM后Dropout：0%-70%（增量）

四个经过训练的模型的验证损失与历元（其他约100个经过训练的模型为可解释性而被隐藏）

研究结果

Dropout是至关重要的，但不是太重要。似乎50%的Dropout可以在不过度学习的情况下进行适当的学习。
正确的学习速度确实加快了收敛速度。
用更大的模型来解决这个问题并不一定有帮助。更多的参数（即层、LSTM单元）并不一定意味着学习的潜力更大，而且使模型更容易过度拟合。
输入序列长度为~50是该问题的理想建模方法。任何较短的模型都无法学习某些依赖项，任何较长的模型都会失去关注点，并强调学习不太重要的长期依赖项。
许多不同的超参数设置和模型大小似乎在相同的损失水平上趋同，相应的精度约为18%到20%。

迭代2-“嵌入深潜”

有了这些知识，我开始了解嵌入表示对我的模型的影响，并查看是否有改进的空间。我首先将嵌入向量的大小从固定长度50切换到100、150、200和250。很明显，较大的嵌入尺寸对整体分类精度(约21%)有轻微的改善，因为它允许模型为每首歌学习更多细微的特征。

解释

这些学习过的嵌入实际上代表什么?

为了更好地理解模型所学习的内容，我提取了嵌入项，执行了主成分分析(PCA)，将它们折叠成3维，并在3D中绘制它们。

歌曲嵌入的主要组件的三维可视化-与“幽灵”相似的歌曲以黄色突出显示

正如预期的那样，该模型已经学会了将出现在类似环境中的歌曲联系起来。上面的图像显示了20首与《Ghost》最相似的歌曲——Phish的粉丝们可以在这里找到明显的联系。注意它们在主元分析向量空间中出现的距离有多近……

看到这些学习向量确实有改进的空间，我通过分别创建自己的歌曲嵌入扩展了这个想法。通过训练一个名为CBOW（连续的单词包）的Word2Vec算法，我创建了包含双向上下文和神经网络仅向前上下文的向量。使用这些经过改进的歌曲向量之间的余弦相似性可以揭示一些非常有趣的模式。

六首最相似的歌曲（按降序余弦相似性排序）

上面的图像显示了一首给定的歌曲以及它的9首最相似的歌曲，这些歌曲都是通过Word2Vec模型学习到的。在这个意义上，相似意味着歌曲出现在相同的背景或在一个固定列表的位置。对于熟悉这些歌曲的Phan来说，你会立刻认同:

大卫·鲍伊(David Bowie)提到的乐观向上、精力充沛的“barn burners”
短，快节奏，蓝调小调像火花，作为连接更突出的歌曲
节奏较慢、旋律优美的乐曲与Roggae的节奏一致
老套而受欢迎的安可歌曲

在转移学习的尝试中，我使用这些上下文丰富的嵌入作为我的神经网络嵌入层的初始化参数（而不是随机的）。该网络在嵌入层冻结和未冻结的情况下都进行了训练；后者证明更有效，使我可以将精度略微提高到21.8%。

把一切都包起来

21.8%的准确度有多好？

好吧，首先，这比随机的机会要好得多。一个统计模型能够理解和解释这些微妙的关系，这是相当惊人的，特别是考虑到它不知道这些歌曲实际上是什么样的。然而，现实情况是，这个模型（就像我们人类一样）非常擅长学习以一些特定模式出现的歌曲，而其他模式则相当糟糕。这些特定的模式发生在歌曲出现时：

作为常见的segues, Phish有一些歌曲(几乎总是)同时出现，一个接一个。我们的模型在相当长的时间内都能正确地处理这些后续的歌曲。(例如“Mike的歌”>“I am Hydrogen”>“Weekapaug Groove”或“The Horse”>“Silent in The Morning”或“Away”> “Steep”)
作为开场曲
作为安可曲
当你猜到是时候休息一下了

模型表现最好的歌曲(按F1评分排序)

改进空间

这种建模方法的一个大问题是它只关注顺序数据……这意味着它没有关于Phish的分类和抽象知识的概念。例如，该模型无法识别[较新的]3.0歌曲是什么，因此，无法理解这些歌曲现在比[较旧/较少见的]1.0歌曲更有可能播放。一个巨大的改进是将分类数据（年代、地点、年份、专辑等）与集合列表序列一起合并到神经网络中。

另一种改进方法（或至少改进相关性）可以是排除前10-15年的数据。如下图所示，Phish在90年代早期播放了大部分节目（1994年有128个节目！）当他们播放的独特歌曲相对较少时（今天超过850首歌曲中约375首），这意味着我们的大多数训练数据严重倾斜，无法学习与这375首歌曲相关的模式（在Phish 1.0期间）。一个很好的例子是” Cold as Ice ” > ” Cracklin Rosie ” > ” Cold as Ice “;在1992-1995年期间，它被演出了46次，之后只演出了4次。