文章/答案/技术大牛

发布

OpenAI 发布重大更新，ChatGPT 正式走向“全能AI助手”

文章来源：企鹅号 - Java面试那些事儿

以下文章来源于AI工具教程，作者AI工具教程

今天看到OpenAI又一波更新，真的是...直接把“个人AI助手”这个概念往现实推进了一大步！这几项更新，我看完第一反应就是——**“全栈AI代理系统快要成型了！”**下面我就来带你分析分析这几项更新到底牛在哪，又会给我们普通开发者带来哪些实际好处。

1）Agents SDK 开放，支持 TypeScript！

这个真的是我没想到的！以前做Agent基本得靠Python或者OpenAI自家的API，结果这次直接开放TypeScript版本的 Agents SDK——懂的都懂，这就等于前端、Node.js 这波也能直接上车搞Agent了！

你想想啊，现在搞一个AI Agent，不光可以跑在你后端server，还能直接跑在Electron、Vite、Next.js上？甚至连Chrome插件都能直接内嵌Agent了！

我试了下，用这个SDK可以定义plan（规划）、tool（工具调用）和observe（观察环境状态）这些核心能力，核心逻辑还支持多步规划，真的是——“封装到牙齿”+“极度工程化”。

简单说就是：**你可以用TS+Node搞出一个能跑、能观察、能决策的AI Agent了！！**这波更新，对前端同学和JS全栈开发者来说，真的是利好大爆发。

2）人类干预机制来了：AI随时可接管！

这点我之前在构思Agent自动处理订单流程的时候就遇到过问题：AI搞到一半，突然人类需要插手，之前的Agent架构基本要整个砍掉重来。

这次OpenAI直接加了“人类可随时接管控制权”机制，真的是做业务流程自动化的痛点被解决了！

比如你做客服Agent，自动回复用户提问的同时，碰到AI回答不了的，立马切到人工客服——不用重新建立会话，不用重载上下文，切换是“无缝级别”的。

这个细节处理得太舒服了，属于**“Agent体系真正走向实用性”的标志功能。**

3）RealtimeAgent：语音代理能力直接爆了！

之前语音Agent主要跑在移动端或者网页里，而且都比较原始，大多数靠 WebSpeech API、Whisper 模型本地部署之类的。

这次OpenAI直接推出RealtimeAgent，重点是：

客户端/服务端都能部署

支持流式语音输入、响应

内建高级音频处理能力（比如回声消除、端点检测）

这套能力放出来，明显是给“AI语音助手”、“电话客服Agent”、“智能车载助手”准备的。

对了，我测了一下，新模型不仅能“对答如流”，还支持中途打断AI说话，AI能根据你插话即时调整策略和回答！这感觉，就像跟真人聊天一样——体验直接飞升！

4）语音模型升级：Speech-to-Speech 更智能！

这一项其实有点低调，但实际上效果惊艳。新版本语音模型具备以下能力：

不再依赖文字中转（不是Speech-to-Text-to-Speech，而是直接Speech-to-Speech）

声音语调、情绪、语速，全都能保留+微调

最关键的是——新增了 speed 参数！你可以控制AI说话的语速，比如在儿童教育场景里说得慢一点，在播新闻或语音导航里快一点，这就离“完全个性化语音助手”更近一步了。

举个例子，我用新模型语音“读报”，speed=1.5，信息量刷刷刷就吐出来了；再调成0.8给小朋友讲故事，语调柔和，节奏适中，简直不像是AI。

5）Codex能力全面开放，能联网搞事情！

最后一条，别被标题“Codex向所有Plus用户开放”误导，它的真正重点是：Codex不再是简单的代码生成器了，而是能动手干活的“开发助理”。

具体表现包括：

可以联网安装依赖、测试、跑代码

支持通过语音指令进行编码

和Agent SDK结合，甚至能自己构建项目原型！

我试了个demo，直接让Codex装个express，生成restful接口，配置Swagger，最后部署到了Vercel上——全程我只动了嘴，手基本没碰键盘。以前想象的AI开发员，这下真来了。

6）记忆功能：AI终于开始“理解你”了！

之前的ChatGPT记忆，只是记录你设置的一些profile，现在更进一步了：

能参考你最近的对话内容（即临时记忆+持久记忆融合）

能理解你过去的行为偏好

回答也更有上下文感了（不再是每次重头介绍）

举个实际场景：我前天让它帮我写一个Python爬虫，昨天继续聊它居然能说“你之前爬的是那个电商网站，对吧？”——这细节直接提升亲密感和效率！

结合昨天我在公众号里写的分析（有朋友看了吗？），我猜OpenAI正在悄悄把ChatGPT从“聊天模型”推进为**“个人AI助手的操作系统”**。

这波更新，模块几乎涵盖了“听、说、看、记、做”五个维度——

听：Speech-to-speech，支持自然语音交互

说：语音输出具备情绪+速度调节

看：Codex支持联网运行项目、读写代码

记：记忆系统升级，能更理解你是谁

做：Agent SDK + RealtimeAgent + 人类介入系统，等于“AI分身上线”

感兴趣的朋友可以试试这波新功能，建议从TS版Agent SDK和RealtimeAgent开始，体验真的很不一样！

一句话总结：这次更新之后，ChatGPT离“你的数字分身”更近一步了！

最后，我为大家打造了一份deepseek的入门到精通教程，完全免费：https://www.songshuhezi.com/deepseek

也可以看我写的这篇文章《DeepSeek满血复活，直接起飞！》来进行本地搭建。

东哥作为一名超级老码农，整理了全网最全《Java高级架构师资料合集》。

发表于: 2025-06-082025-06-08 11:43:43
原文链接：https://page.om.qq.com/page/Ob-DyE5h3MSTQSboJ7sgdVIg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

OpenAI 发布重大更新，ChatGPT 正式走向“全能AI助手”

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐