OpenAI在昨晚发布了最新旗舰级模型GPT-4o,据了解该模型可以实时推理音频、视觉和文本,主打概念为拟人化、超自然、超低时延的个人语音交互助理。GPT-4o中的'o'代表Omni
全面,是迈向更自然的人机交互的一步。它接受文本、音频和图像的任意组合作为输入,并支持生成任意组合的文本、音频和图像输出。
它可以在232毫秒内响应音频输入,平均320毫秒与对话中人类反应时间相似。在英语和代码方面它与GPT-4 Turbo性能相当,在非英语语言文本上有显著改进,同时API速度更快且成本便宜50%。与现有模型相比,GPT-40在视觉和音频理解方面表现特别出色。文本和图像输入将于今日在API和ChatGPT中推出,语音和视频输入将在未来几周内推出。
对于OpenAI发布的GPT-4o您有什么看法呢?评论区留下您的观点
领取专属 10元无门槛券
私享最新 技术干货