语音模型S1,我看了一圈,直接一句话总结:确实可以封神了!
为啥这么说?来,下面我从几个维度给你拆开讲讲,看看这个Fish Audio家的S1,是不是值得这么吹!
你听听它的描述:“达到专业配音演员的表现力与自然度”——这个描述不新鲜,但能真做到的?寥寥无几。
我特地去体验了下,给了几个情绪指令,比如:
生气点说一句话
小声低语说一句
带点同情语气讲一段
结果——惊艳到我了!!!真的有“活人”的感觉,尤其是那种低语,居然还带点气音的感觉,跟我们之前常见的TTS模型比,简直是质的飞跃。
先给你列下支持的原生语言(注意,是原生,不是用翻译搞的):
中、英、日、德、法、西、韩、阿、俄、荷、意、波、葡
14种语言,简直覆盖全球主要语言市场,这对于多语种内容创作,或者要做全球版本的AI助手、客服、游戏旁白,简直太香了!
之前我测Amazon Polly、Google TTS,多语种都有,但情绪表现就差了一大截。
S1这边是真的做到了情绪、语气、风格都能迁移过去,不是翻译,而是“角色扮演”级别的TTS。
这个才是我最关注的。很多TTS模型都说能控制情绪,但实际上咋样?
你调个“生气”出来就像感冒了,调个“高兴”就像喝醉了。
S1完全不是这个水平。
我试了一下:
“你现在是在跟我开玩笑吗?”
不同情绪下的表现,截然不同:
愤怒:中音偏高,语速加快,结尾带上扬,有压迫感!
同情:语速明显放缓,语调柔软,尾音微微下沉,有温度!
强调:前半句音量略微上升,后半句略顿挫,节奏感很好!
这个情绪系统,我只能说——它不是假装有情绪,它是真的懂情绪!
强大的指令跟随能力,像在和人说话!
这一点对我来说最重要,因为我之前一直想做一个语音智能客服demo,之前用的模型最大的问题是“指令死板”。
S1这边,不光能按我的要求说出话,而且能在语义上自动理解我指令背后的意图!
我试了个很经典的测试句:
用同情的语气,对客户说“我们真的非常抱歉”
S1的结果让我鸡皮疙瘩都起来了,那个语气——你就想象客服在你爆炸投诉后,用略带颤抖但诚恳的语气说这句话……它不是说话,是在演戏!
训练数据 200 万小时,这训练量简直爆炸了!
这个参数我当时看了直接一愣。
200万小时,折算下来就是228年。哪怕并行训练,资源消耗也不低。
难怪它的表现力这么强,这不是拿来训语音模型,这是在训练“演员”。
而且如果是多语种都用类似体量的训练,那这背后数据体系之庞大,真的不是一般公司能搞得起来的。
最让我心动的一点是价格——
百万字节(相当于约0.8 / 小时)
兄弟你知道这意味着啥吗?
我做过语音合成服务的项目,以前用 Amazon Polly,每小时成本要
,如果用人声配音,起步50/小时。
S1这个价格,是真的“工业级TTS”第一次可以平价量产了!
拿来做大批量内容转语音(小说、视频解说、客服应答)真的太值了。相当于一个全职配音员,只要几十块一天工资,嗓子不哑、情绪不乱、24小时无休……
在 TTS-Arena 排名第一,这不是吹,这是实打实的排名!
我去TTS-Arena看了下,确实是第一。
那边是公认的语音合成评测榜,能排第一真的不是靠PPT,是靠听感、情绪自然度、连续听力疲劳度等多维度打分。
不是说模型“厉害”就是牛,而是综合表现强才是真硬核。S1正好符合这个“全方位强”的模型设定。
Fish Audio发布的S1,确实是当前TTS赛道的一匹大黑马,我这几年来玩了不下20个语音合成模型,从最早的Tacotron、FastSpeech到现在的StyleTTS、XTTS……每一代进步都在追赶“人类自然发音”的终极目标。
S1这个模型,真的是——从语音合成进化成语音演绎了!
1)表现力强,声音“活”了 2)支持多语种,是真国际范 3)情绪控制精细,非装样子 4)指令跟随自然,没套路感 5)训练量炸裂,堆出来的质量 6)价格太良心,适合大规模落地 7)TTS-Arena第一,含金量拉满!
感兴趣的朋友可以试试,我个人觉得它非常适合:
视频配音
数字人声音生成
小说转听书
多语言客服系统
游戏语音NPC生成
下一步我可能会用它来做个自动配音的剪辑流水线,搞好了再写个教程分享出来,有想法的朋友也可以一起来研究研究~
领取专属 10元无门槛券
私享最新 技术干货