我在实验室处理火把经过培训,我保存了模型,并将模型加载到另一个笔记本(注2)。在注释2中,在加载state_dict和所有内容之后,pytorch消耗的内存要比训练状态少得多。
因此,我怀疑“无用”数据是存储在图形卡内存中,而培训(在我的例子中,大约13 So ).我试着删除训练时使用的变量,但是不够大(大约2gb)
我想使用预先训练的模型作为我的模型中的编码器部分。def forward(self, x): a, b = self.encoder(x)由于我修改了这个预训练模型的部分代码,基于,我需要应用strict=False以避免出现错误,但是根据我加载预训练权重的场景,我无法在代码中找到应用strict=False的位置。如何应用它,或者如何更改加载经过预先训练的模型的场景,taht使应用strict=False成为可能
我正在尝试让pytorch模型运行在句子分类任务上。如何从ClinicalBert模型加载预训练的Bert权重,而不加载分类权重?天真地尝试从预先训练的ClinicalBert权重中加载权重时,我得到了以下错误: size mismatch for classifier.weight: copying a param with shape我目前尝试替换pytorch_pretrained_bert包中的from_pretrained函