文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是最简单的方式继续培训一个预先培训的伯特模型，在一个特定的领域？

问什么是最简单的方式继续培训一个预先培训的伯特模型，在一个特定的领域？
EN

Stack Overflow用户

提问于 2021-04-27 11:27:42

回答 1查看 1.1K关注 0票数 1

我想使用一个预先训练的伯特模型，以便在文本分类任务中使用它(我使用的是Huggingface库)。然而，预先训练过的模型是针对与我不同的领域而训练的，我有一个大的未注释的数据集，可以用来微调它。如果我只使用标记的示例并在特定任务(BertForSequenceClassification)的培训中微调它，那么数据集太小，无法适应特定领域的语言模型。这样做最好的方法是什么？谢谢!

nlp

text-classification

bert-language-model

huggingface-transformers

pytorch-lightning

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-18 08:16:31

让我们先澄清几点，以减少一些歧义。

Prediction.

You使用了两个预培训目标:蒙面语言建模( Language Modeling，MLM)和下一句( Next )，

提到有一个大型的无注释数据集，您计划使用该数据集来微调BERT模型。这不是微调的工作方式。为了微调您预先训练过的模型，您需要一个注释的数据集，即序列分类下游任务的文档和类对。

。

那你能做什么？首先，使用由特定于域的词汇表组成的未注释数据集扩展您的通用域令牌程序。然后，使用这个扩展的令牌器，您可以继续关于MLM和/或NSP目标的预培训，以修改您的word嵌入。最后，使用带注释的数据集对模型进行微调。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67282155

复制

相似问题

问什么是最简单的方式继续培训一个预先培训的伯特模型，在一个特定的领域？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是最简单的方式继续培训一个预先培训的伯特模型，在一个特定的领域？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是最简单的方式继续培训一个预先培训的伯特模型，在一个特定的领域？
EN