首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI 发布重大更新,ChatGPT 正式走向“全能AI助手”

以下文章来源于AI工具教程,作者AI工具教程

今天看到OpenAI又一波更新,真的是...直接把“个人AI助手”这个概念往现实推进了一大步!这几项更新,我看完第一反应就是——**“全栈AI代理系统快要成型了!”**下面我就来带你分析分析这几项更新到底牛在哪,又会给我们普通开发者带来哪些实际好处。

1)Agents SDK 开放,支持 TypeScript!

这个真的是我没想到的!以前做Agent基本得靠Python或者OpenAI自家的API,结果这次直接开放TypeScript版本的 Agents SDK——懂的都懂,这就等于前端、Node.js 这波也能直接上车搞Agent了!

你想想啊,现在搞一个AI Agent,不光可以跑在你后端server,还能直接跑在Electron、Vite、Next.js上?甚至连Chrome插件都能直接内嵌Agent了!

我试了下,用这个SDK可以定义plan(规划)、tool(工具调用)和observe(观察环境状态)这些核心能力,核心逻辑还支持多步规划,真的是——“封装到牙齿”+“极度工程化”

简单说就是:**你可以用TS+Node搞出一个能跑、能观察、能决策的AI Agent了!!**这波更新,对前端同学和JS全栈开发者来说,真的是利好大爆发。

2)人类干预机制来了:AI随时可接管!

这点我之前在构思Agent自动处理订单流程的时候就遇到过问题:AI搞到一半,突然人类需要插手,之前的Agent架构基本要整个砍掉重来。

这次OpenAI直接加了“人类可随时接管控制权”机制,真的是做业务流程自动化的痛点被解决了!

比如你做客服Agent,自动回复用户提问的同时,碰到AI回答不了的,立马切到人工客服——不用重新建立会话,不用重载上下文,切换是“无缝级别”的。

这个细节处理得太舒服了,属于**“Agent体系真正走向实用性”的标志功能。**

3)RealtimeAgent:语音代理能力直接爆了!

之前语音Agent主要跑在移动端或者网页里,而且都比较原始,大多数靠 WebSpeech API、Whisper 模型本地部署之类的。

这次OpenAI直接推出RealtimeAgent,重点是:

客户端/服务端都能部署

支持流式语音输入、响应

内建高级音频处理能力(比如回声消除、端点检测)

这套能力放出来,明显是给“AI语音助手”、“电话客服Agent”、“智能车载助手”准备的。

对了,我测了一下,新模型不仅能“对答如流”,还支持中途打断AI说话,AI能根据你插话即时调整策略和回答!这感觉,就像跟真人聊天一样——体验直接飞升!

4)语音模型升级:Speech-to-Speech 更智能!

这一项其实有点低调,但实际上效果惊艳。新版本语音模型具备以下能力:

不再依赖文字中转(不是Speech-to-Text-to-Speech,而是直接Speech-to-Speech)

声音语调、情绪、语速,全都能保留+微调

最关键的是——新增了 speed 参数!你可以控制AI说话的语速,比如在儿童教育场景里说得慢一点,在播新闻或语音导航里快一点,这就离“完全个性化语音助手”更近一步了。

举个例子,我用新模型语音“读报”,speed=1.5,信息量刷刷刷就吐出来了;再调成0.8给小朋友讲故事,语调柔和,节奏适中,简直不像是AI。

5)Codex能力全面开放,能联网搞事情!

最后一条,别被标题“Codex向所有Plus用户开放”误导,它的真正重点是:Codex不再是简单的代码生成器了,而是能动手干活的“开发助理”。

具体表现包括:

可以联网安装依赖、测试、跑代码

支持通过语音指令进行编码

和Agent SDK结合,甚至能自己构建项目原型!

我试了个demo,直接让Codex装个express,生成restful接口,配置Swagger,最后部署到了Vercel上——全程我只动了嘴,手基本没碰键盘。以前想象的AI开发员,这下真来了。

6)记忆功能:AI终于开始“理解你”了!

之前的ChatGPT记忆,只是记录你设置的一些profile,现在更进一步了:

能参考你最近的对话内容(即临时记忆+持久记忆融合)

能理解你过去的行为偏好

回答也更有上下文感了(不再是每次重头介绍)

举个实际场景:我前天让它帮我写一个Python爬虫,昨天继续聊它居然能说“你之前爬的是那个电商网站,对吧?”——这细节直接提升亲密感和效率!

结合昨天我在公众号里写的分析(有朋友看了吗?),我猜OpenAI正在悄悄把ChatGPT从“聊天模型”推进为**“个人AI助手的操作系统”**。

这波更新,模块几乎涵盖了“听、说、看、记、做”五个维度——

听:Speech-to-speech,支持自然语音交互

说:语音输出具备情绪+速度调节

看:Codex支持联网运行项目、读写代码

记:记忆系统升级,能更理解你是谁

做:Agent SDK + RealtimeAgent + 人类介入系统,等于“AI分身上线”

感兴趣的朋友可以试试这波新功能,建议从TS版Agent SDK和RealtimeAgent开始,体验真的很不一样!

一句话总结:这次更新之后,ChatGPT离“你的数字分身”更近一步了!

最后,我为大家打造了一份deepseek的入门到精通教程,完全免费:https://www.songshuhezi.com/deepseek

也可以看我写的这篇文章《DeepSeek满血复活,直接起飞!》来进行本地搭建。

东哥作为一名超级老码农,整理了全网最全《Java高级架构师资料合集》。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ob-DyE5h3MSTQSboJ7sgdVIg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券