部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜

Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜

作者头像
一个正经的AI
发布2024-12-23 15:22:52
发布2024-12-23 15:22:52
2.7K0
举报

今日主题:OpenAI O3重磅上线 今天的山姆-奥特曼获得呼吸权一天,Open AI在各方势力的围剿下,直接贴脸开大。终于放出了大招,Chatgpt O3重磅上线,今天的山姆-奥特曼出街,大概就是这个表情

视频

在为期12天的发布会,终于来了最后一波大招,直接将AGI上升到了一个新的高度。推出了其最新的推理模型03,这是 01 的后继者。

简单一点,这波模型上线,对我们有什么影响

计算机学院进入大学 > 新冠疫情开始,科技工作达到顶峰 > 最后一年开始实习 > 科技泡沫破灭 > 找到体面的高新互联网工作 > 职业生涯开始加快步伐 >openai发布o3> 天台见

为什么将新模型称为 o3,而不是 o2?这或许是商标问题。

The Information 报道,OpenAI 跳过 o2 是为了避免与英国电信提供商 O2 发生潜在冲突。首席执行官 Sam Altman 在今天上午的直播中证实了这一点。我们生活的世界很奇怪,不是吗?

该模型系列包括标准版 03 和紧凑版 03 mini,也就是pro版和青春版。专为特定任务应用而设计。与传统的 AI 推理模型不同,它依赖于私有链思维到自我事实检查使其速度更慢,但是这也意味着在物理、数学和编程等领域更准确。也就是说,它是数学家,物理学家,和编程大师。

先上数据

左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。

o3 的成绩:71.7%,比o1还强了不少。

右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。

o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。

我们可以从数据上,武断的说,它的编码能力,在这份榜单上,排名175

换句话说,大多数人类无法获胜 - 但每个任务的成本约为20000人民币,这是极其昂贵的 - 所以,我们对人工智能有优势,我们便宜

在基准测试中大大超越了之前的所有模型。—在 ARC-AGI 上:o3 在低计算能力上的得分是 o1 的三倍多,超过 87% 的得分—在 EpochAI 的 Frontier Math 上:o3 创下了新纪录,解决了 25.2% 的问题,而其他模型均未超过 2%—在 SWE-Bench Verified 上:o3 的表现比 o1 高出 22.8 个百分点—在 Codeforces 上:o3 的评分为 2727,超过了 OpenAI 首席科学家的 2665 分—在 AIME 2024 上:o3 得分为 96.7%,仅错失了一个问题—在 GPQA Diamond 上:o3 的得分为 87.7%,远高于人类专家的表现

换一句话说,它可以做很多事情,因为它会思考,而且是IQ200的去思考

在发布会中,Open AI一直都在强调一个关键词----AGI

那么什么是AGI?

AGI 是“通用人工智能”的缩写,泛指能够执行人类所能完成的任何任务的人工智能。OpenAI 有自己的定义:“在最具经济价值的工作上表现优于人类的高度自主系统。”

实现 AGI 将是一个大胆的宣言。 从一项基准来看,OpenAI正在慢慢接近 AGI。在 ARC-AGI(一项旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能的测试)中,o3 在高计算设置下获得了 87.5% 的分数。在最差的情况下(在低计算设置下),该模型的性能是 o1 的三倍

简单来说就是,

简单来说,AGI 就是能做任何人类能做的事情的人工智能,不仅仅是解决特定问题或任务,而是可以处理任何未知或新的任务。

目前的大部分人工智能(比如聊天机器人、推荐系统、语音助手等)都属于“窄人工智能”(Narrow AI),它们只能在特定领域内表现得很好,比如只会下围棋、语音识别或玩游戏。AGI 则不同,它能够灵活地应对各种不同的挑战,不受限于某一个领域。

为了实现 AGI,AI 系统需要具备以下能力:

  1. 学习新知识 就像人类不断学习新技能,AGI 也能通过新的经验和信息不断提升自己。
  2. 解决多种问题 无论是数学、艺术、社交还是技术问题,AGI 都能应对自如。
  3. 自主行动 AGI 需要能在复杂环境中做出决策,甚至有自我改进的能力

OpenAI 发布首批推理模型后,包括谷歌在内的竞争对手 AI 公司纷纷推出了大量推理模型。11 月初,由量化交易员资助的 AI 研究公司 DeepSeek 发布了其首款推理模型 DeepSeek-R1的预览版。同月,阿里巴巴的 Qwen 团队 发布了 据称是 o1 的第一个“开放”挑战者(它可以下载、微调并在本地运行)。

是什么打开了推理模型的闸门?

首先,就是寻找改进生成式人工智能的新方法。正如 TechCrunch 最近 报道的那样,用于扩展模型的“蛮力”技术不再能带来曾经的改进。

并非所有人都相信推理模型是最佳的发展方向。首先,它们往往价格昂贵,因为运行它们需要大量的计算能力。尽管到目前为止,它们在基准测试中表现良好,但尚不清楚推理模型是否能保持这种进步速度。

有趣的是,o3 的发布正值 OpenAI 最有成就的科学家之一离职之际。Alec Radford 是 OpenAI 生成式 AI 模型“GPT 系列”(即 GPT-3、GPT-4 等)学术论文的主要作者,本周他宣布将离职从事独立研究。

也许,最顶尖的科学家,也不想

人工智能的发展速度非常快,曾经看似未来主义的工具现在正成为人工智能发展的 一部分 日常生活中,无论是通过固定电话、桌面应用程序还是 消息平台, 开放人工智能和谷歌之间的竞争正在以前所未有的速度推动创新

作为用户,我们是这场技术军备竞赛的受益者,03 模型可能只是使人工智能更智能、更易于使人工智能更智能、更易于访问、更融入我们的生活。它只是一个工具。

好了,介绍到此,再会!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一个正经的测试 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档