OpenAI新一代语音模型问世，复杂环境识别处理能力大幅提升

文章来源：企鹅号 - ITBear科技资讯

OpenAI近期宣布在语音识别技术领域取得了重大进展，推出了一系列创新的语音模型，分别是gpt-4o-transcribe、gpt-4o-mini-transcribe以及gpt-4o-mini-tts。这些模型在性能上的提升，标志着语音识别和处理领域的一次重要飞跃。

其中，gpt-4o-mini模型以其超高的性价比吸引了广泛关注。与GPT-4o相比，gpt-4o-mini的成本降低了96%至97%，相较于GPT-3.5 Turbo也便宜了60%至70%。其API定价为每百万Tokens输入15美分，每百万Tokens输出60美分，为开发者提供了更为经济且高效的解决方案。

GPT-4o模型的一大亮点在于其多语言处理能力，能够支持50种不同语言的语音识别，极大地拓宽了其应用场景。该模型在响应速度和质量上也实现了显著提升，能够在极短的时间内——最短仅232毫秒——对音频输入做出反应，这一速度已接近人类的对话反应时间。更令人惊喜的是，GPT-4o还具备情绪识别能力，使得人机交互变得更加自然流畅。

在语音转文本（STT）方面，新推出的模型同样表现出色。特别是在口音适应、嘈杂环境处理以及不同语速识别等方面，这些模型展现出了优于现有解决方案的性能。这一特点使得它们在呼叫中心、会议记录等实际应用场景中更具优势。同时，文本转语音（TTS）模型也为开发者提供了更多自定义选项，如设定不同的语音风格，从而为用户提供更具表现力和温度的语音体验。

据OpenAI介绍，这些创新模型的推出，不仅将极大地推动语音识别技术的发展，还将为各行各业带来更加智能化、高效化的解决方案。开发者们可以借此机会，开发出更加符合用户需求、更加智能的应用产品，为用户带来更加便捷、高效的使用体验。

发表于: 2025-03-212025-03-21 20:36:15
原文链接：https://page.om.qq.com/page/OUHsSK9M8ZyKdYyuFbaN2s4g0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

OpenAI新一代语音模型问世，复杂环境识别处理能力大幅提升

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐