前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[AI Research] AI 模型中的“it”是数据集

[AI Research] AI 模型中的“it”是数据集

作者头像
从零开始学AI
发布2024-05-10 11:23:03
880
发布2024-05-10 11:23:03
举报
文章被收录于专栏:AIAI

模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。


我现在已经在 OpenAI 工作了将近一年。在这段时间里,我训练了很多生成模型。比起任何人都有权利训练的要多。当我花费这些时间观察调整各种模型配置和超参数的效果时,有一件事让我印象深刻,那就是所有训练运行之间的相似之处。

我越来越清楚地认识到,这些模型确实以令人难以置信的程度逼近它们的数据集。这意味着它们不仅学会了什么是狗或猫,还学会了不重要的分布之间的插值频率,比如人类可能拍摄的照片或人类常写下的单词。

这表现为 - 长时间训练在相同数据集上,几乎每个具有足够权重和训练时间的模型都会收敛到相同的点。足够大的扩散卷积-联合产生与 ViT 生成器相同的图像。AR 抽样产生与扩散相同的图像。

这是一个令人惊讶的观察!它意味着模型行为不是由架构、超参数或优化器选择确定的。它是由您的数据集确定的,没有别的。其他一切都是为了高效地将计算逼近该数据集而采取的手段。

那么,当您提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时,您所指的不是模型权重。而是数据集。


本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档