这里的 k 表示上文的窗口大小,理论上来讲 k 取的越大,模型所能获取的上文信息越充足,模型的能力越强。...这些书籍因为没有发布, 所以很难在下游数据集上见到, 更能验证模型的泛化能力.
2.4 GPT-1模型的特点
模型的一些关键参数为:
参数 取值
transformer 层数 12
特征维度 768...GPT-2并没有对GPT-1的网络结构进行过多的创新与设计, 而是使用了更多的网络参数与更大的数据集: 最大模型共计48层, 参数量达15亿.
3.1 GPT-2模型架构
在模型方面相对于 GPT-...因此, GPT-2的训练去掉了Fune-tuning只包括无监督的预训练过程, 和GPT-1第一阶段训练一样, 也属于一个单向语言模型
理解GPT-2模型的学习目标: 使用无监督的预训练模型做有监督的任务...综上, GPT-2的核心思想概括为: 任何有监督任务都是语言模型的一个子集, 当模型的容量非常大且数据量足够丰富时, 仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务.
3.3 GPT-2的数据集