首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

进一步改进GPT和BERT:使用Transformer的语言模型

在 PTB、WikiText-2 和 WikiText-103 上的实验结果表明 CAS 能在所有问题上实现在 20.42 与 34.11 之间的困惑度,即相比于之前最佳的 LSTM 方法,困惑度平均能提升...举个例子,GPT 或 BERT 都没有针对 WikiText 进行调整,也没有直接以最小化困惑度为目标。...我们在 PTB、WikiText-2 和 WikiText-103 这三个常用语言模型数据集上评估了 CAS。...但是,更新所有权重可能导致过拟合,因为 WikiText 或 Penn Tree Bank 之类的数据集比用于训练 GPT 和 BERT 的数据小一个数量级以上。...算法 2:协调式架构搜索 实验 为了体现使用协调式搜索找到的 Transformer 架构的有效性,我们在 WikiText 和 Penn TreeBank 数据集上进行了实验。

1.1K30
您找到你想要的搜索结果了吗?
是的
没有找到

学界 | DeepMind提出关系RNN:记忆模块RMC解决关系推理难题

该方法在强化学习领域(如 Mini PacMan)、程序评估和语言建模上获得了很大进步,在 WikiText-103、Project Gutenberg 和 GigaWord 数据集上获得了当前最优的结果...最后,我们在一系列任务上对 RMC 进行测试,这些任务可从跨序列信息的更强大关系推理中受益,测试结果表明在强化学习领域(如 Mini PacMan)、程序评估和语言建模上获得了很大进步,在 WikiText...之后我们应用 RMC 处理一系列任务(这些任务可能从更显著的记忆交互中受益),从而得到了潜在增长的记忆容量,可处理随时间的关系推理:在 Wikitext-103、Project Gutenberg、GigaWord...表 2:在 WikiText-103、Project Gutenberg 和 GigaWord v5 数据集上的验证困惑度和测试困惑度。 本文为机器之心编译,转载请联系本公众号获得授权。

59420

首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?

WikiText 数据集上,他们创造了新的性能记录。同时,在谷歌 Billion Word 基准上,单个GPU运行的横向对比中的表现也做到了最好。...在论文摘要中,他们写道:“在WikiText-103上,我们创造了新的记录。同时,在谷歌 Billion Word 基准上,我们也获得了单个 GPU 的最佳表现。...测试结果 研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word(GBW)进行测试,并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下: ?...上图是WikiText-103(左)和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。...结果显示,我们的门卷积神经网络在WikiText-103 上打破了记录,在更大型的谷歌Billion Word 基准中,单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。

1.1K50

LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体

image.png 语言模型 该研究使用标准 WikiText-103(Merity 等,2017)数据集进行实验。...WikiText-103 数据集由维基百科的长文组成;训练集包含大约 28K 篇文章、总共 103M 个单词。这将产生约 3600 个单词的上下文文本块。...下表 2 展示了在该研究更新规则下,WikiText-103 语言模型的困惑度结果。...image.png 在下表 3 中,使用该研究更新规则下的 Transformer(medium 配置),在 WikiText-103 语言模型的困惑度结果。...image.png 在下表 4 中,WikiText-103 语言模型在没有截断上下文的情况下训练和评估模型的困惑度,这与上表 2 中上下文窗口受到限制的情况相反。

40430

DeepMind提出关系RNN:构建关系推理模块,强化学习利器

新智元编译 来源:arxiv 编辑:肖琴 【新智元导读】传统的记忆架构做关系推理时有困难,DeepMind和伦敦大学学院的这篇论文提出关系推理模块RMC,能够在序列信息中执行关系推理,在WikiText...最后,研究者在一系列任务上测试RMC,这些任务可以从跨序列信息的更强大的关系推理中获益,并且在RL领域(例如Mini PacMan)、程序评估和语言建模中显示出巨大的受益,在WikiText-103、Project...然后,我们将RMC应用到一系列任务中,这些任务可能会从更显式的memory-memory 交互中获益,因此,可能会增加随时间推移的的关系推理能力:在Wikitext-103、Project Gutenberg...表2:WikiText-103、Project Gutenberg和GigaWord v5数据集上的验证和测试困惑度 总的来说,我们的结果显示,记忆交互的显式建模还提高强化学习任务,以及程序评估、比较推理和语言建模的性能

77330

ICLR2024,微软 | 提出LLM剪枝方法-SliceGPT,参数减少25%,保持99%的性能!

实验结果 生成任务 作者对经过 SliceGPT 和 SparseGPT 剪裁后大小不同的 OPT 和 LLAMA-2 模型系列在 WikiText-2 数据集中进行了性能评估。...图中上行显示的是 SliceGPT 在 WikiText-2 中的平均准确率,下行显示的是 SliceGPT 在 Alpaca 的平均准确率。...可以发现,RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异,模型在 Alpaca 数据集中展现了更好的性能。...作者还发现 Phi-2 无法在 WikiText-2 数据集中,从被剪裁过的模型中恢复原有准确率,但在 Alpaca 数据集中能恢复几个百分点的准确率。...经过 50% 的剪裁后,虽然 SliceGPT 在 WikiText2 中的保留的复杂度比 SparseGPT 2:4 差,但吞吐量却远超 SparseGPT 的方法。

24110
领券