首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

George Hotz 爆料 GPT-4由8个MoE 模型组成

据报道,美国知名骇客George Hotz在接受采访时透露,GPT-4由8个220B模型组成。就连PyTorch的创建者Soumith Chintala对此也深信不疑。GPT-4:8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。如果真是这样的话,GPT-4的训练可能更加有效。

George说是八个模型推理十六次,应该是每个模型都参与了推理。所以不可能是猜想三 路由到不同的模型。

令人失望的是Open AI没有做出路线上的重大突破,而只是技术上的一些突破,跟很多人的预期完全不一致,和MOE架构本身能不能在未来继续提升表现关系不大,「同一个模型训 8 次」的信息,搞得应该不是这样的。而且做 16 次 inference 的做法显然说明省 inference 不是非常前位的目的。

但至少两个 high profile 的人都出来说是 8x 220B on different data,基本上说明了主架构不是 sparse activation 的 router 类的 moe,而可能是 parallel inference 然后 ensemble 或者 vote 之类的。

万一不是MoE而是别的啥黑科技大火箭,现在大家相信是了MoE,结果全部走上了弯道,OpenAI雄霸数十载。

如果再用这个混合集合生成的数据去喂新的base,再反复迭代持续,后面的效果会越来越好,提升空间很大,而且方便扩展和持续迭代。

类似当年围棋实现AI和AI下棋,不断迭代,人类就彻底赶不上了。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230626A03BIH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券