我想使用一个预先训练的伯特模型,以便在文本分类任务中使用它(我使用的是Huggingface库)。然而,预先训练过的模型是针对与我不同的领域而训练的,我有一个大的未注释的数据集,可以用来微调它。如果我只使用标记的示例并在特定任务(BertForSequenceClassification)的培训中微调它,那么数据集太小,无法适应特定领域的语言模型。这样做最好的方法是什么?谢谢!
发布于 2021-08-18 08:16:31
让我们先澄清几点,以减少一些歧义。
Prediction.
。
那你能做什么?首先,使用由特定于域的词汇表组成的未注释数据集扩展您的通用域令牌程序。然后,使用这个扩展的令牌器,您可以继续关于MLM和/或NSP目标的预培训,以修改您的word嵌入。最后,使用带注释的数据集对模型进行微调。
https://stackoverflow.com/questions/67282155
复制相似问题