前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微软论文称 ChatGPT 为 20B 模型

微软论文称 ChatGPT 为 20B 模型

原创
作者头像
不二小段
发布2023-10-30 23:42:42
2580
发布2023-10-30 23:42:42
举报
文章被收录于专栏:不二小段不二小段

微软的一篇论文中揭示,ChatGPT-3.5 使用的是 20B 模型。这样的参数规模虽然之前有所预见,但真正被证实的时候还是非常令人惊讶——真的能用 20B 量级实现效果这么好的模型吗?

https://arxiv.org/pdf/2310.17680.pdf

之前我们已经比较明确地知道,GPT-3 是 175B 模型;

而 gpt-3.5-turbo 的接口调用价格约为 davinci-003 的 1/10,且接口速度明显变快。

微软的这篇论文(CODEFUSION: A Pre-trained Diffusion Model for Code Generation) 是介绍代码模型 CodeFusion 的,其中一张比较表格中,「捎带手」地给出了 ChatGPT 的模型参数规模:20B,咱也不知道是不是故意的。

其实早在gpt-3.5-turbo的价格出来的时候,就已经有人给出过这个推断了:

1. ChatGPT 是百亿(~10B)参数的模型(这其实是我们两个多月前就已获取到的消息,也可以通过测 latency 验证,和 curie 差不多) 2. 虽然 ChatGPT 的 policy model 是百亿规模,但它所用的 reward model 也许用了千亿模型,这相当于最强的模型所学到的 human preference 被 distill 进了小尺寸。更可怕的是,这个小尺寸(~10B)模型已经达到或超越了先前的大尺寸模型(例如 175B 的 GPT-3.5)

作者:郑楚杰

链接:ChatGPT 和 Whisper API 已开放接口,单价骤减 90% ,有哪些值得关注的信息?


我的几点想法:

1、20B 大概率是真的,但绝对不意味着随便一个 20B 都可以,要知道从小模型做到 20B,和从大模型蒸馏到 20B 的概念绝对不一样;

2、OpenAI 在多个场合多次表示他们坚信 scale law 依然成立,我不认为这是烟雾弹,并不能因为gpt-3.5-turbo小模型成功就认为更大的模型没用;

3、 gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望,大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限,是否会出现小于某个量级后,基础能力明显下降的情况。

再过几天 OpenAI 就要办开发者大会了,希望能有更多信息,据外媒说 OpenAI 最近丢了不少商业客户,甚至和微软也貌合神离的,OpenAI 说要降低费用,让开发者能有更多机会,感觉他们还会憋点大招出来。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
边缘可用区
腾讯云边缘可用区(TencentCloud Edge Zone,TEZ)是腾讯云的本地扩展,适用于解决计算、存储和服务可用性问题。腾讯云边缘可用区可为您带来云的诸多优势,例如弹性、可扩展性和安全性。借助腾讯云边缘可用区,您可以在靠近最终用户的地理位置运行对延迟敏感的应用程序,基本消除延迟问题。腾讯云边缘可用区提供与中心节点一致的体验,助力业务下沉,具备更低延时、更广覆盖、更少成本等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档