详情分析,请看上方视频讲解。
ChatGPT的技术底座是“大型语言模型(Large Language Models)”,简称LLMs,中文习惯称为“大模型”。算法是大模型成功的首要条件,然后要喂给算法海量的数据(数据量级跃升,能带来更多能力的涌现),再搭配强大的发动机——大算力,才能获得最基础的大模型。
一个ChatGPT应用的算力消耗已经让人瞠目。其大模型GPT经历了三次迭代,GPT、GPT-2和GPT-3(当前开放的版本为GPT-3.5)的参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练单次的成本就已经高达460万美元。最新的GPT3.5在训练中使用了微软专门建设的AI计算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约3640PF-days,即假如每秒计算一千万亿次,需要计算3640天。
领取专属 10元无门槛券
私享最新 技术干货