图源:网络截图。侵删。
北京时间3月21日零点OpenAI忽然宣布在1点将会发布新的语言模型。一个小时后,OpenAI正式推出三款全新语音模型及升级版Agents SDK,引发全球开发者关注。
图源:网络截图。侵删。
“史上最强”语音识别,全面超越Whisper,首先登场的是两款全新的语音转文本(Speech-to-Text)模型。据OpenAI团队介绍,这两款模型均基于海量音频数据训练,单词错误率显著低于之前大受欢迎的Whisper模型,尤其在多语言、多口音环境下表现更为出色。不仅识别速度更快,准确度更高,价格也极具竞争力。这意味着,未来无论是会议记录、实时字幕、语音助手,还是跨境电商、语言学习,都会迎来一个更高效稳定的语音输入体验。
图源:网络截图。侵删。
颠覆性TTS模型,情感语调随心调控:除了语音识别,OpenAI此次还发布了一款全新的文本转语音(TTS)模型 —— GPT-4 Mini TTS。相比传统TTS技术只能“平铺直叙”输出机械化声音,这款模型的最大亮点是:开发者可以精确控制语音的语调、能量、风格,甚至为AI定制“个性化情绪”。
举个例子,你可以指令AI客服在道歉时语气更真诚、在介绍产品时更加有感染力,或打造一个陪伴感十足的虚拟播客主播,真正实现“有温度”的语音交互。
更令人惊喜的是,TTS模型定价仅为1美分/分钟,大大降低了企业和开发者的应用门槛。
图源:网络截图。侵删。
此外,OpenAI还同步更新了Agents SDK,现已全面支持音频接口。开发者只需简单集成,即可将原本的文字型AI助手轻松升级为全双工语音代理,实现如打电话、客户咨询、语音学习、互动播报等更自然流畅的体验。
图源:网络截图。侵删。
此次发布会上,OpenAI还宣布举办一场特别的创新竞赛,鼓励全球开发者在OpenAI FM平台展示他们基于新语音技术的创意项目,获胜者将赢得由青少年工程师打造的定制版收音机,寓意“AI之声”走入现实生活。
感兴趣的朋友现在就可以在 https://OpenAI.fm体验新的TTS模型。
photo by DALL·E3
本文写于2025年3月21日
连续日更的第354天,第378篇
⬆️关注我,一起在AI前沿探索⬆️
领取专属 10元无门槛券
私享最新 技术干货