模型一般用于研究目的和生产中的开发人员使用。研究人员经常从已发表的论文中了解OpenAI的模型,但OpenAI API中可用的内容与论文中发表的内容之间通常没有完全匹配。
本文的目的是帮助澄清:
GPT-3.5 系列是一系列模型,在 2021 年第四季度之前混合使用文本和代码进行训练。以下型号属于 GPT-3.5 系列:
code-davinci-002是一个基本模型,非常适合纯代码完成任务text-davinci-002是一个基于code-davinci-002优化,以使其更加适用Text类型的任务text-davinci-003是对text-davinci-002优化我们提供以 3 种不同方式训练的 InstructGPT 模型变体:
训练方法 | 模型 |
|---|---|
SFT监督对人体演示进行微调 | davinci-instruct-beta1 |
FeedME监督对人工编写的演示和人工贴标员根据总体质量得分评分为 7/7 的模型样本进行微调 | text-davinci-001, , , text-davinci-002text-curie-001text-babbage-001 |
PPO强化学习,使用从人类比较中训练的奖励模型 | text-davinci-003 |
SFT和PPO模型的训练与InstructGPT论文中的模型类似。FeedME(“反馈变得简单”的缩写)模型是通过从我们所有的模型中提炼出最佳完成来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同的数据上进行训练。
这些是我们研究论文中介绍的最接近的模型,这些模型目前在 API 中可用。请注意,并非 API 中可用的所有模型都对应于论文,即使对于下面列出的模型,也可能存在细微的差异,无法精确复制论文。
纸 | 发表 | 论文上型号名称 | API 中的模型名称 | 参数2 |
|---|---|---|---|---|
[2005.14165] 语言模型是少数镜头学习者 | 22 7月 2020 | GPT-3 175B | 达芬奇 | 175乙 |
GPT-3 6.7B | 居里 | 6.7乙 | ||
GPT-3 1B | 巴贝奇 | 1乙 | ||
[2107.03374] 评估在代码上训练的大型语言模型 | 14 7月 2021 | 法典 12B | 代码-库什曼-0013 | 12乙 |
[2201.10005] 通过对比预训练嵌入文本和代码 | 14 1月 2022 | GPT-3 无监督 cpt-text 175B | 文本相似性-达芬奇-001 | 175乙 |
GPT-3 无监督 cpt-text 6B | 文本相似性居里-001 | 6乙 | ||
GPT-3 无监督 cpt-text 1.2B | API 上没有紧密匹配的模型 | 1.2乙 | ||
[2009.01325] 学会从人类反馈中总结 | 15 2月 2022 | GPT-3 6.7B 预训练 | API 上没有紧密匹配的模型 | 6.7乙 |
GPT-3 2.7B 预训练 | API 上没有紧密匹配的模型 | 2.7乙 | ||
GPT-3 1.3B 预训练 | API 上没有紧密匹配的模型 | 1.3乙 | ||
[2203.02155] 训练语言模型以遵循人类反馈的说明 | 4 3月 2022 | 指示GPT-3 175B SFT | Davinci-instruct-beta | 175乙 |
指示GPT-3 175B | API 上没有紧密匹配的模型 | 175乙 | ||
指示GPT-3 6B | API 上没有紧密匹配的模型 | 6乙 | ||
指令GPT-3 1.3B | API 上没有紧密匹配的模型 | 1.3乙 |
code-cushman-001是 Codex 12B 模型的更强大的多语言版本,用于评估在代码上训练的大型语言模型。
OpenAI官方非常乐于大家使用其API进行探索、研究。如果您想从他们那里得访问计划的机会感兴趣,请使用此表格向他们提供有关您的研究用例的详细信息。特别是,以下方向是特别重要的方向,尽管您可以自由地制定自己的方向: