图片来源:Stability AI
AI初创公司Stability AI发布了名为Stable Audio Open Small的“立体声”音频生成AI模型,该公司宣称这是市场上速度最快的模型,且效率高到足以在智能手机上运行。
Stable Audio Open Small是Stability AI与芯片制造商Arm合作的成果,后者生产了众多平板、手机及其他移动设备中的处理器。尽管已有许多AI应用如Suno和Udio能生成音频,但多数依赖云端处理,意味着无法离线使用。
Stability还宣称,Stable Audio Open Small的训练集完全由免版税音频库Free Music Archive和Freesound中的歌曲构成。这与前述Suno和Udio的训练集形成对比——据报道后者包含受版权保护内容,存在知识产权风险。
Stable Audio Open Small拥有3.41亿参数规模,并针对Arm CPU进行了优化。(参数有时被称为"权重",是模型内部决定其行为的关键组件。)该模型专为快速生成短音频样本和音效(如鼓点与乐器即兴片段)设计。
Stability AI宣称其能在智能手机上以不到8秒的时间生成最长11秒的音频。
该模型并非没有局限性。Stable Audio Open Small仅支持英文提示输入,Stability在其文档中指出,该模型无法生成逼真的人声或高质量歌曲。公司还警告称,由于训练数据偏向西方风格,模型在不同音乐类型上的表现并不均衡。
对于开发者而言,另一个潜在的难题是Stable Audio Open Small的使用条款较为严格。该模型对年收入低于100万美元的研究人员、爱好者和企业免费开放,但年收入超过100万美元的开发者及组织需购买Stability的企业许可证。
Stability是热门图像生成模型Stable Diffusion背后的困境公司,去年在包括埃里克·施密特和Napster创始人肖恩·帕克在内的投资者试图扭转业务颓势时筹集了新资金。据报道,Stability的联合创始人兼前 CEO 埃马德·莫斯塔克管理不善,导致公司陷入财务困境,员工辞职,与Canva的合作破裂,投资者对公司前景日益担忧。
过去几个月里,Stability聘请了新CEO,任命电影制作人詹姆斯·卡梅隆加入董事会,并发布了多款新的图像生成模型。
参考资料
https://techcrunch.com/2025/05/14/stability-ai-releases-an-audio-generating-model-that-can-run-on-smartphones/
编译:ChatGPT
领取专属 10元无门槛券
私享最新 技术干货