近日,OpenAI在其API平台上隆重推出了三款全新的音频处理模型,分别为两款语音转文字模型——gpt-4o-transcribe与gpt-4o-mini-transcribe,以及一款文字转语音模型gpt-4o-mini-tts。据OpenAI官方介绍,这些模型在识别准确率、语言理解力及适应性方面实现了显著提升,尤其在面对口音差异、嘈杂环境及语速变化等复杂场景时,表现尤为出色。
gpt-4o-mini-tts模型赋予了开发者前所未有的定制化能力,用户可指令模型以特定风格进行语音输出,如模仿富有同情心的客服、机器人腔调或是疯狂科学家的语调,这一功能无疑将极大丰富智能语音交互的多样性和真实感。
为了直观展示这些新模型的能力,OpenAI还特意搭建了一个专属网站,用户无需复杂操作即可免费体验文字转语音功能,而语音转文字功能则需通过API接口访问。
经过亲身体验,新模型的文字转语音功能确实令人眼前一亮。它不仅能够流畅且富有感情地朗读英文文本,还能在意大利语中演绎餐厅菜单,甚至在粤语中模拟推销电话,不过,在中文语境下,该模型的表现仍有待提升,语音效果相对生硬,缺乏自然流畅感。
在价格方面,OpenAI为用户提供了相对亲民的选择:gpt-4o-transcribe每分钟收费0.006美元(约人民币0.04元),gpt-4o-mini-transcribe则为每分钟0.003美元(约人民币0.02元),而gpt-4o-mini-tts的定价为每分钟0.015美元(约人民币0.11元)。
在OpenAI提供的体验平台上,用户可以从11种预设声音中进行选择,尽管这些声音的名称不够直观,但通过试听可以感受到它们各自的特点。在选择声音后,用户还可以进一步指定风格或人设,如冷静、耐心老师、友好或美食主厨等,这为语音内容的个性化定制提供了无限可能。
以“美食主厨”为例,当选择这一人设并输入相关文本后,模型迅速生成了一段充满意大利风情的语音,不仅准确报出了菜单,还自然融入了意大利口音的英文讲解,细节处理得相当到位。模型还能根据定制化的提示词,模仿特定历史时期的说话方式,如“中世纪骑士”,这一功能的实现离不开详尽的提示词指引。
然而,当尝试中文场景时,模型的表现则略显不足。尽管生成速度理想,但中文语音缺乏起伏与变化,声音较为生硬,缺乏亲和力。在方言测试方面,模型仅成功识别并输出了粤语内容,其他方言如闽南语、山东话等则未能达到预期效果。
在语音转文字方面,OpenAI此次推出的gpt-4o-transcribe和gpt-4o-mini-transcribe两款模型在多个基准测试中均超越了上一代模型whisper。它们在高资源语言上的表现尤为出色,如英语、西班牙语等,但在中文上的表现相对较弱。在低资源语言上,这两款模型也实现了显著改进,如孟加拉语的错误率大幅下降。
OpenAI表示,这些新模型在音频生成和转录技术上的进步,得益于其强大的GPT架构及在专门音频数据集上的大规模预训练。他们还采用了改进的模型蒸馏技术和自博弈技术,使得小型模型也能提供出色的对话质量和响应速度。未来,OpenAI将继续致力于提升音频模型的智能性和准确性,为开发者提供更加个性化的体验。
领取专属 10元无门槛券
私享最新 技术干货