GPT-4o原生图像生成上线！10秒完成“用嘴改图”

用户11203141

发布于 2025-03-31 19:38:31

3450

就在谷歌刚发布号称“地表最强推理模型”的Gemini 2.5 Pro后不久。OpenAI深夜突袭，用一场30分钟的“轻量级发布会”扔出重磅炸弹——GPT-4o的原生图像生成功能正式上线。从自拍秒变动漫风，到生成相对论漫画，再到准确渲染复杂文本，GPT-4o的多模态能力让人眼前一亮。那么，OpenAI这波操作究竟能否在AI大战中扳回一局？让我们一探究竟。

深夜直播中，奥特曼亲自上阵，带领团队展示GPT-4o原生图像生成的功能。把一张三人自拍瞬间变成动漫风格，还在图片中玩梗加入了“feel the agi”文字。

相比以往依赖DALL-E 3的图像生成方式，GPT-4o的突破在于其原生多模态能力。作为一个统一的模型，它不再是单纯的语言或图像生成工具，而是能无缝处理文本、图像、音频等多种输入输出形式。

上图⬆️白板上的人物倒影都准确地对应了他们的动作

文本渲染

GPT-4o在文本渲染上的表现堪称惊艳。比如，给一段文字要求GPT-4o生成一张餐厅菜单。它不仅能够展现出精致的画面效果，还将每道菜的名称、价格及描述精准呈现，仿佛一张真实的菜单。

甚至在复杂场景中，如街头标牌上荒诞的“女巫扫帚停车禁区”提示、婚礼请柬生成，GPT-4o也能分毫不差地还原。

指令遵循

GPT-4o的图像生成遵循详细的指令，注重细节。当其他模型还难以处理5-8个对象时，GPT-4o可以处理多达10-20个不同的对象。

<左右滑动查看更多>

多轮对话生成

用户可以通过自然对话来优化图像，GPT-4o能够在聊天上下文中同时生成图像和文本，确保整个创作过程的一致性。例如，如果您正在设计一个视频游戏角色，在优化和调整过程中，该角色的外观将在多个迭代中始终保持连贯性。

情境学习

GPT-4o可以对用户上传的图像进行分析和学习，将其详细信息无缝整合到其上下文中，为图像生成提供信息。

世界知识

原生图像生成技术的引入，使4o模型能够深度融合文本知识与图像，从而构建出更智能、更高效的模型，生成更贴近现实世界知识的图像。

<左右滑动查看更多>

真实图像生成

通过对多种图像风格的深度训练，GPT-4o 能够生成高度逼真的图像。

马克思购物被偷拍

一张狗仔队风格的坦率照片，卡尔·马克思匆匆忙忙地穿过美国购物中心的停车场，在试图避免被拍照时，他带着惊讶的表情回头瞥了一眼。他手里拿着多个装满奢侈品的光鲜亮丽的购物袋。他的外套在风中飘扬，其中一个袋子正摆动着，仿佛他正在大步前进。汽车和发光的商场入口的模糊背景，以强调运动。相机的闪光眩光部分过度曝光了图像，给人一种混乱的小报感觉。