首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

但是,按照理论,更小的模型最终会触及自身知识容量的极限,并且学习速度会变慢;而有更大知识容量的大型模型在经过给定的训练时间后会超过小模型,取得更好的性能表现。...换句话说,当在训练时间投入固定量的算力时,哪个模型能在那段时间内学到更多? 幸好我们可以把这些损失曲线与 Meta 提供的另一些数据组合起来看:每个模型训练所用的时间。...以 7B 版本为例:其损失的下降速度一开始比更大的模型快得多,然后减慢;之后 13B 版本模型超过了它,率先到达 1.9。...33B 其实胜之不武,因为它超越 13B 版本时已经用去了超过两倍的计算时间。 33B 和 65B 版本之间也有同样的先减速再加速的现象,以至于 33B 实际上从未被 65B 超越。...由此造成的结果是:在 Llama 1 的训练时间,33B 模型总是优于 65B 模型;而在 Llama 2 的训练时间,34B 模型则在重新超过 70B 模型之前要略逊一筹。

38130
领券