首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

亚马逊:我们提取了BERT的一个最优子架构,只有Bert-large的16%,CPU推理速度提升7倍

因此,研究者对 Bort 进行了预训练,发现与原先的训练相比,预训练速度有了明显的提高:在相同的 GPU、数据集大小也相当的情况下,Bort 训练了 288 小时,BERT-large 训练了 1153...研究者在 GitHub 上开源了训练模型以及代码:https://github.com/alexa/bort/ Bort:BERT 的「最优」子架构 Bert 是一种基于 transformer 的双向全连接架构...评估 为了验证在经过最佳子架构提取过程之后,Bort 是否保留了 BERT 和 RoBERTa 的强大泛化性能,研究者在 GLUE、SuperGLUE 基准以及 RACE 数据集上微调了 Bort。...研究者通过在所有任务中添加单层线性分类器来微调 Bort,但 CoLA 除外。在 CoLA 中,研究者发现在 Bort 和分类器之间添加额外的线性层可以提高收敛速度。...除了 QQP 和 QNLI 以外,Bort 几乎在所有任务上表现优异,它的性能比其他基于 BERT 的同等模型要好得多。相比于 BERT-large,Bort 的性能提高了 0.3%-31%。

72210
您找到你想要的搜索结果了吗?
是的
没有找到

亚马逊:我们提取了BERT的一个最优子架构,只有Bert-large的16%,CPU推理速度提升7倍

因此,研究者对 Bort 进行了预训练,发现与原先的训练相比,预训练速度有了明显的提高:在相同的 GPU、数据集大小也相当的情况下,Bort 训练了 288 小时,BERT-large 训练了 1153...研究者在 GitHub 上开源了训练模型以及代码:https://github.com/alexa/bort/ Bort:BERT 的「最优」子架构 Bert 是一种基于 transformer 的双向全连接架构...评估 为了验证在经过最佳子架构提取过程之后,Bort 是否保留了 BERT 和 RoBERTa 的强大泛化性能,研究者在 GLUE、SuperGLUE 基准以及 RACE 数据集上微调了 Bort。...研究者通过在所有任务中添加单层线性分类器来微调 Bort,但 CoLA 除外。在 CoLA 中,研究者发现在 Bort 和分类器之间添加额外的线性层可以提高收敛速度。...除了 QQP 和 QNLI 以外,Bort 几乎在所有任务上表现优异,它的性能比其他基于 BERT 的同等模型要好得多。相比于 BERT-large,Bort 的性能提高了 0.3%-31%。

41210
领券