首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么是最简单的方式继续培训一个预先培训的伯特模型,在一个特定的领域?

什么是最简单的方式继续培训一个预先培训的伯特模型,在一个特定的领域?
EN

Stack Overflow用户
提问于 2021-04-27 11:27:42
回答 1查看 1.1K关注 0票数 1

我想使用一个预先训练的伯特模型,以便在文本分类任务中使用它(我使用的是Huggingface库)。然而,预先训练过的模型是针对与我不同的领域而训练的,我有一个大的未注释的数据集,可以用来微调它。如果我只使用标记的示例并在特定任务(BertForSequenceClassification)的培训中微调它,那么数据集太小,无法适应特定领域的语言模型。这样做最好的方法是什么?谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-18 08:16:31

让我们先澄清几点,以减少一些歧义。

Prediction.

  • You使用了两个预培训目标:蒙面语言建模( Language Modeling,MLM)和下一句( Next ),
  1. 提到有一个大型的无注释数据集,您计划使用该数据集来微调BERT模型。这不是微调的工作方式。为了微调您预先训练过的模型,您需要一个注释的数据集,即序列分类下游任务的文档和类对。

那你能做什么?首先,使用由特定于域的词汇表组成的未注释数据集扩展您的通用域令牌程序。然后,使用这个扩展的令牌器,您可以继续关于MLM和/或NSP目标的预培训,以修改您的word嵌入。最后,使用带注释的数据集对模型进行微调。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67282155

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档