我们知道,OpenAI的GPT1,GPT2的训练方法是开源的,然而GPT3和GPT3以后的模型都没有开源。国产大模型和开源大模型目前已经逐步追上3.0、3.5的水平,但离GPT4都差得很远。GPT3有1750亿参数,所以很多人认为可能GPT4有1万亿参数,但究竟是不是这样,其实除了OpenAI的开发人员,没有人知道。
今年6月21号Latent Space的播客(一档关于AI 工程师的播客)中,乔治·霍兹揭秘了GPT4的训练方法!
先介绍下乔治·霍兹,他17 岁成为第一个解锁iPhone的人,让其支持非 AT&T 的其它 GSM 网络,他将这台越狱的iPhone放到eBay上拍卖,换到了一辆跑车和3台未破解的iPhone。
他目前是自动驾驶解决方案http://Comma.ai 的创始人。最近新创立了一家提供“个人计算集群”的小公司Tinycorp (深度学习框架 tinygrad 以及最近发布的 tinybox 背后的公司)。
播客访谈较长,历时1小时23分钟,我们把其中关于GPT4的部分摘录出来:
GPT-4的真正结构是一种“头部”结构,然后它是一个八路混合模型。混合模型是当你无法找到新的创新点时,通常会选择的模型。所以你看,这就是一个混合模型,他们训练了同一个模型八次,然后使用了一些小技巧,其实他们进行了16次推理,但这与模型的多模态性无关。
多模态只是一个视觉模型附着在上面的部分。多模态性其实很明显,你只需要将视觉模型放入与你的语言模型相同的标记空间即可。所以混合并不是关于视觉或语言的部分,它只是与我们无法制作大于2200亿参数的模型有关。
我们希望模型能更好,那么我们该如何提高呢?我们可以训练它更长时间,但我们已经尽力了,并且收效逐渐减小。好吧,那么我们试试看专家混合模型,我们试试八个专家。其实,每当一家公司保密,除了苹果以外,都是因为他们在隐藏一些并不那么酷的东西。人们总是错误地认为他们隐藏这些信息是因为这些信息很酷,必须是很了不起的,有一万亿个参数。但实际上,它只是比GPT-3稍大一些,他们只是做了一个八路的专家混合,只是花了八倍的资金。但这并不是真正的创新,任何人都可以花八倍的钱去实现这一点。
通俗的说法就是:GPT-4是8个一模一样的2200亿参数模型连起来做的,只是训练数据不同,8个专家模型(mixture expert model),一共1.76万亿参数,每次推理要做16次循环推理。
精华文章推荐阅读:
3. 星星之火,可以燎原:微软154页GPT-4测试报告精华版
4. 人人能看懂的图解GPT原理说明系列(一):神经网络基础知识
6. 真IPhone时刻来临|24小时登顶热榜第一 : ChatGPT官方IOS版上线!!!
10. GPT 官方最佳实践指南
12.GPT王炸更新:新函数调用功能、16K上下文、更低的价格
13.追平GPT3.5!5道推理题测试国产大模型与GPT差距
知识星球推荐:
目前全国最大的关于AI的知识星球和社区,刚突破2.5万成员,2个月时间,已发布了11个专栏、67+课程,产生了5K+篇帖子,日均95+篇;精华帖子122+篇,日均2.5篇。并组织了北京、深圳等多个城市的线下交流会。扫下面的优惠卷加入星球可优惠69元,对内容不满意72小时可无条件退款。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。