首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

速递|Stability AI联手Arm推出最快手机端免云模型,8秒生成11秒音频

图片来源:Stability AI

AI初创公司Stability AI发布了名为Stable Audio Open Small的“立体声”音频生成AI模型,该公司宣称这是市场上速度最快的模型,且效率高到足以在智能手机上运行。

Stable Audio Open Small是Stability AI与芯片制造商Arm合作的成果,后者生产了众多平板、手机及其他移动设备中的处理器。尽管已有许多AI应用如Suno和Udio能生成音频,但多数依赖云端处理,意味着无法离线使用。

Stability还宣称,Stable Audio Open Small的训练集完全由免版税音频库Free Music Archive和Freesound中的歌曲构成。这与前述Suno和Udio的训练集形成对比——据报道后者包含受版权保护内容,存在知识产权风险。

Stable Audio Open Small拥有3.41亿参数规模,并针对Arm CPU进行了优化。(参数有时被称为"权重",是模型内部决定其行为的关键组件。)该模型专为快速生成短音频样本和音效(如鼓点与乐器即兴片段)设计。

Stability AI宣称其能在智能手机上以不到8秒的时间生成最长11秒的音频。

该模型并非没有局限性。Stable Audio Open Small仅支持英文提示输入,Stability在其文档中指出,该模型无法生成逼真的人声或高质量歌曲。公司还警告称,由于训练数据偏向西方风格,模型在不同音乐类型上的表现并不均衡。

对于开发者而言,另一个潜在的难题是Stable Audio Open Small的使用条款较为严格。该模型对年收入低于100万美元的研究人员、爱好者和企业免费开放,但年收入超过100万美元的开发者及组织需购买Stability的企业许可证。

Stability是热门图像生成模型Stable Diffusion背后的困境公司,去年在包括埃里克·施密特和Napster创始人肖恩·帕克在内的投资者试图扭转业务颓势时筹集了新资金。据报道,Stability的联合创始人兼前 CEO 埃马德·莫斯塔克管理不善,导致公司陷入财务困境,员工辞职,与Canva的合作破裂,投资者对公司前景日益担忧。

过去几个月里,Stability聘请了新CEO,任命电影制作人詹姆斯·卡梅隆加入董事会,并发布了多款新的图像生成模型。

参考资料

https://techcrunch.com/2025/05/14/stability-ai-releases-an-audio-generating-model-that-can-run-on-smartphones/

编译:ChatGPT

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ObByTUEpsoOXOmSJpTYLJEew0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券