OpenAI发布GPT-4o模型，实时处理音视频和文本交互

文章来源：企鹅号 - 数码鲸

OpenAI于5月15日发布了GPT-4o模型，这可以被看作是GPT-4的升级版本。这一模型可以实时推理处理音频、视觉和文本内容，并且能够更加无缝地和ChatGPT进行交互。OpenAI总裁兼联合创始人格雷格・布罗克曼在发布会上进行了上手演示，让两台运行GPT-4o的设备进行语音或视频交互。

在演示开始之前，布罗克曼表达了自己的期望，即让两台AI聊天机器人互相交流。在演示中，A聊天机器人向B聊天机器人讲述了他的期望，并让B聊天机器人调用摄像头观察周围世界。B聊天机器人通过调用前置摄像头，清晰地描绘出用户的穿着和所处的环境。接着A聊天机器人可以与B聊天机器人对话并提出问题，包括移动摄像头和它所看到的内容。这一示范展示了GPT-4o模型强大的交互和推理能力，为人工智能技术的发展带来了新的可能性。