谷歌用AI融合1000种乐器创造新声音，将现身艺术节

量子位

发布于 2018-03-30 15:13:26

8050

发布于 2018-03-30 15:13:26

文章被收录于专栏：量子位

李杉编译自 Wired 量子位报道 | 公众号 QbitAI

Jesse Engel正在演奏一种介于古钢琴和哈蒙德电风琴之间的乐器——融合了18世纪的古典乐与20世纪的节奏布鲁斯。他随后把一个滑块拖过笔记本电脑的屏幕。突然之间，那个乐器又变成古钢琴和哈蒙德电风琴之间的另外一种融合。之前可能是15%的古钢琴，现在则接近75%。之后，他又快速地来回拖动标记，展示这两种不同乐器之间的不同融合方式。

“这跟同时演奏这两种乐器并不一样。”Engel的同事Cinjon Resnick说。这的确值得一提。这台机器和他的软件并不是把古钢琴的声音叠加到哈蒙德电风琴上，而是利用算法将这两种乐器的声音特色融合成一种全新的声音。

他们可以将这种方式融合大约1000种不同的乐器，从而创造出无数种新的声音。这一切都要感谢人工智能。

Engel和Resnick都是谷歌Magenta团队的一员——这是谷歌内部的一个小型人工智能研究团队，他们专门负责开发能够自己创作艺术的电脑系统——而这个乐器融合项目则是他们的最新尝试。该团队将于本周晚些时候，在北卡罗来纳州举行的Moogfest艺术、音乐和科技节上公开展示这个名为NSynth的项目。

谷歌上月首次在博客中探讨了NSynth的创意，希望借此为音乐家提供全新的音乐制作工具。评论家Marc Weidenbaum指出，这种方法与管弦乐队指挥多年以来所追求的方法相差不大——“把乐器融合起来并不是什么新想法。”他说——但他相信，谷歌的技术可以将这种古老的尝试推向新的高度。“从艺术上讲，它可以产生一些炫酷的东西，而由于它是谷歌，人们都会跟随它。”他说。

声音的界限

Magenta是谷歌大脑人工智能团队的一部分，后者有一部分研究人员正在探索神经网络和其他机器学习技术的边界。神经网络是一种复杂的数学系统，可以通过分析大量数据来学会如何执行各种任务，这项技术最近几年已经在物体和人脸识别、语音指令和语言翻译等领域展现了不俗的成绩。现在，Magenta团队则希望利用神经网络教会机器如何制作新的音乐或其他艺术。

NSynth首先汇集大量声音，组成一个庞大的数据库。Engel和团队会从大约1000种不同的乐器那里收集音调信息，然后灌输给神经网络。通过分析这些音调，神经网络便可学会每种乐器的音色。然后为每种乐器开发一个数学“矢量”。使用这些矢量，机器便可模拟每一种乐器的声音——例如哈蒙德电风琴或古钢琴——但也可以合并这两种声音。

除了Engel最近在谷歌总部展示的NSynth“滑块”外，该团队还开发了一种二维界面，可以让你一次性探索四种不同乐器之间的听觉空间。该团队还计划进一步推进这一想法，探索艺术创作的边界。例如，第二个神经网络可以学会新的方法来模拟和融合所有乐器的声音。让人工智能与人工智能展开合作。

该团队还为人工智能研究人员开发了新的竞技场。他们发布了一篇论文，描述了NSynth算法，允许任何人下载和使用声音数据库。对Magenta团队的负责人Douglas Eck来说，前景在于研究人员可以为任何一位艺术家（而不仅仅是音乐家）提供更多种类的工具。但也不至于范围过于宽泛。没有边界的艺术不是艺术，关键要在现状与无限可能之间找到一个均衡点。