音乐生成领域迎来一个值得关注的节点。ACE-Step 1.5正式发布,这是一个完全开源的音乐生成模型,MIT协议,可商用,训练代码、权重、LoRA微调方案全部公开。
先说硬指标:A100上生成一首完整歌曲只需2秒,RTX 3090上10秒内完成,显存需求约4GB。这意味着普通消费级显卡就能跑起来。在常规评测指标上,官方声称超越了Suno。
不过社区的实际反馈比官方宣传更有参考价值。
有人测试后给出7.8到8分的评价,认为本地生成能做到这个水平已经相当惊艳。也有人直言提示词遵循能力较差,歌词对齐是明显短板,电子音乐类型的理解也不够到位。一位音乐制作人的评价很中肯:想用它获取创作灵感,发现还有很长的路要走,但作为开源项目方向是对的。
有趣的是,这个模型对长提示词效果更好,支持负向提示词,这给了玩家更多调教空间。社区已经有人用它生成了相当不错的合成波专辑。
真正让人兴奋的是LoRA支持。只需要几首歌就能训练出特定风格。有人预言,等社区里的技术宅们开始针对特定流派微调,效果可能会超越闭源方案。开源的力量从来不在于初始版本有多完美,而在于它能被多少人改进。
顺便一提,官方那张对比图被群嘲了。横轴标注是“大多数模型”“一些模型”“少数模型”,纵轴是“生成时间”但没有具体数值。有人调侃这像是用画图软件随手画的,也有人解释说闭源模型是黑盒,只能计时网页进度条。不管怎样,这种图表确实有损专业性。
据说团队已经在准备2.0版本了。考虑到1.0到1.5的进步幅度,年底之前这个领域可能会有更大突破。
本地化、开源、可微调,这三个特性组合在一起,意味着音乐生成正在从“调用API”走向“真正可控”。对于创作者来说,工具的可控性往往比工具的上限更重要。
GitHub:github.com/ace-step/ACE-Step-1.5
reddit.com/r/LocalLLaMA/comments/1quxtkj/the_opensource_version_of_suno_is_finally_here